大模型算法到底值不值得入行？

大模型玩家

于 2024-10-04 10:00:00 发布

阅读量1.1k

点赞数 20

文章标签：算法人工智能学习产品经理产品运营职场和发展 ai

本文链接：https://blog.csdn.net/2401_85375186/article/details/142628133

版权

最近又有不少私信问我关于要不要入行大模型之类的问题， 年初的时候我写过一篇相同主题的笔记，时隔8个月，今时不同往日，想法确实有些变化，再说一说这个问题。

在这里插入图片描述

先讨论算法相关的方向，分成三部分吧pretrain、post-training 和更偏应用的工作

pretrain 的机会应该是越来越少了，还能在这个方向做的应该都是很强的团队了，早期买了几百张卡就来混事那种团队基本都 G了(比如我们)已经不敢评了，只是觉得很强。

post-training 分成两种，

一种是以提升通用能力为目的的，比如 openai、国内 qwen 专门做这个的团队。这种也不敢评，强就完了。不过某些看起来好像比较通用的工作，比如近期的那个reflection 模型，我觉得只能叫做以刷榜为目标的’应用”…

第二种是以一个具体的业务场景为目标进行优化的，和我上面所谓偏应用的工作高度交叉。我的大部分工作属于这个部分，做了挺长时间了，所以还是敢说一点的，

先讲现状，目前这块工作有两种典型情况：

第一种是一个特别具体的问题，甚至 prompt 格式都是基本固定的，比如从一段文本里面提取信息输出成一个json。一般就构造一些数据，然后让模型在这些数据上过拟合就行，其实不关心模型的通用能力或者是不是灾难性遗忘之类的问题。这种搞法虽然简单，但是应用中特别多，比如一个专门做 rag 的模型，可能的输入 query 大致就十几类，先做个意图识别决定要不要调用搜索如果要的话就生成一个结构化 search query。比比起写个复杂 prompt 去挑战模型的基础能力不如造几百条数据 SFT 一下。这块甚至可以通过数据工作达到比较复杂的效果，比如我之前做一个多agent 的应用场景，有十来个 agent，一共几十个函数，但是每个 agent 执行的任务相对单一旦流程相对固定。这种情况也可以通过构造比较完整覆盖应用 case 的数据来达到不错的效果。简单总结一下，这一类任务的特点是仅做 SFT，并且是使模型“过拟合”到固定模式，不太关心通用能

第二种是完成特定任务的同时需要模型保留基础能力，这个难度一下就大了非常多。比如我上面提到那个多 agent 的任务，后面发现它对于一些在构造数据之外的、需要模型基础推理能力的地方，效果非常差。但是这种逻辑推理原始模型(如 lama3 instruct)是有的，如果要在保留这种逻辑能力的情况下，再提高模型在我的业务场景的能力，就非常困难。要做这种训练，一般有两种选择，一是在开源的 instruct 模型上面继续训练，大部分情况是 SFT，但是这种开源的instruct 模型往往很容易被破坏，如果采用的训练数据和原始模型分布差异太大，模型效果容易大幅下降。二是自己在 pretrain 模型基础上做完整的 post-training，包括 SFT 和 RLHF，这就要求你的 post-training 水平达到 meta 水平，不然训出来肯定是差的。所以其实很难，

不是妄自菲薄，但是人贵在有自知之明。大部分算法也就是个调包水平，能抄明白就不错了，而第二类问题基本属于抄都没得抄。大部分人其实不配搞这一类问题。所以我觉得可以默认就干干第一类活就行了哈哈哈

然后是应用工作，应用工作里面一大部分就是上面说的，搞数据，做做 SFT，其实没多少正经技术含量。不会的给我几千块钱，包会。还有一块是一些偏工程一点的事情，基于langchain 开发个线上服务啥的。

所以总结下来，现在所谓大模型算法，干的最多的就是写写 prompt、搞点业务数据训个 SFT 了。我觉得如果只是搞这部分工作，没啥太大的价值。除非能接触到其他几类工作，那我觉得还是比较有意义的。

除了大模型之外，我比较熟悉的算法工作还有搜广推，我觉得对比而言，对于应届生或者刚毕业不久的人，似乎做搜广推能锻炼到的能力还会更广泛一点儿。毕竟搜广推是一个很成熟的业务做搜广推业务可以对模型分级、搭建收集线上数据管道来持续迭代等优秀的模式有了解。

不过我自己还是愿意继续做大模型的，我对这个比较有兴趣，愿意尝试一点比较难的工作，

再妄言几句不那么熟悉的工种–产品。我觉得现在做大模型方向的产品似乎是个很好的选择，因为我工作中觉得特别缺这种人，缺乏优秀产品比缺乏优秀算法似乎更是大模型落地路上的障碍，很明显现在大模型业务都在寻求落地，而懂得大模型的产品确实很少。所以如果在这方面有所造诣，应该会是一个好的发展方向。

在大模型时代，我们如何有效的去学习大模型？

现如今大模型岗位需求越来越大，但是相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。

⑤AI+零售：智能推荐系统和库存管理优化了用户体验和运营成本。AI可以分析用户行为，提供个性化商品推荐，同时优化库存，减少浪费。

⑥AI+交通：自动驾驶和智能交通管理提升了交通安全和效率。AI技术可以实现车辆自动驾驶，并优化交通信号控制，减少拥堵。

…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。