大模型算法入行&转行？指南来了！

最新推荐文章于 2024-09-28 18:08:30 发布

Cc不爱吃洋葱

最新推荐文章于 2024-09-28 18:08:30 发布

阅读量612

点赞数 18

文章标签：算法自然语言处理大模型 AI大模型大模型算法大模型入行转行

本文链接：https://blog.csdn.net/2401_85328934/article/details/142587030

版权

最近私信问我关于入行、转行方面的问题比较多，就专门写一篇讲讲我的理解。

在这里插入图片描述

首先说明一下个人的背景和现状，我本人是本科学历，有互联网大厂搜推方向经验，后来跳到中厂继续做推荐，去年开始做大模型。现在是个小组长，做以应用落地为目的的大模型方向工作。

现在大模型算法涉及的工作主要分为这几个方向:

1.偏底层的训练和推理框架工作，比如colossal-ai、vlm这些，各厂如果自建集群搭建训练推理框架的话也会有一部分工作与之重合;

2.预训练;

3.Alignment;

4.应用开发;

上面也就十分粗略的简单做了个划分，其实很多界限并不清晰，只是为了后面叙述有个结构。

底层框架

这一层我是没太接触过的，不过公司内有做这方面的人。以我粗浅的认知，这些人的技术栈和以前搞GPU算子优化、分布式框架的那拨人重合度比较高。不太懂就不多说了。

预训练

在我看来，预训练这块的工作最终肯定是赢家通吃的。现在只是因为大家都还在同一个水平线上，也没有能和开源拉开差距，卖api也卖不了多少，所以看起来竞争还挺激烈。等到决出三六九等之后肯定没有必要存在那么多团队做pretrain。况且即使做pretrain的团队，真正核心在干活的也没几个人。一千张卡可能不够供一个人用，卡就那么多，配用的人也就那么多。剩下的人做的事情我觉得都不是那么有意义，不是说洗数据啥的不重要，重要，但对大多数人来说对个人价值提升不大。我之前也自己做基于llama的继续pretrain，现在这块工作已经完全放弃了，感觉没啥意义。

再有，所谓垂直领域大模型这个事情我觉得大概率是个伪命题，各方面知识应该是相互促进补充的，遵循奥卡姆剃刀原理我相信最终就是一个模型破一切。

所以我认为虽然现在预训练目前在就业市场上可能还是有比较大的需求量的，但是很多就是纯跟风，迟早得死。对于择业的建议就是:自信自己顶级天赋顶级卷度，势要干翻gpt4的人选这个。

Alignment

我其实觉得sft和强化学习都可以放一起，不知道我这个小标题准不准确。反正都是在基座上进一步提升对话的效果。这块工作其实就开始一定程度接近业务了，比如目前，很多业务团队都会根据下游任务来构造数据进行sft训练。会不会以后基座足够强之后全靠few shot啥的就完全解决问题，这个我不敢猜测。至少在国内，基于开源模型做sft拿到业务上用，应该是挺长一段时间会保持的状态，所以这个方向看起来我觉得是目前市场上需求较大，未来一段时间也还是会持续有比较大需求量的。想训模型的可以选这个方向我觉得挺好

应用开发

这一块的岗位其实现在大家看到的还不多，主要可能有两个原因吧，第一是openai的接口在国内直接用是有监管问题的。第二是国内开源模型的水平还不行，以及一些相关链路上的工作还没做完(比如functioncalling)。所以时机还不成熟，还不到LLM native应用大规模爆发的时候。

但是我觉得毫无疑问这个方向的人才需求以后将远远超出前面几个方向加起来，这就像是你搞安卓系统和安卓应用开发的对比一样。做操作系统开发才几个人，安卓开发那真是不知道有多少了。

我预计这个时间也不会太长，一两年肯定够了，所以现在找这个方向的机会开始布局也是很不错的。不过先训训模型等真的有机会起来也没问题，毕竟你做应用开发对系统原理了解清楚肯定是优势，

其他

其实除了上面说这些，还存在一些其他的方向，比如类似guidance这样在align模型之后的，和推理框架绑定比较强的组件，我觉得以后应该会融入到推理框架的范围内。

总结

最后简单总结一下，我认为现在总体的行业形势是资本进行了大规模投入，但是基本堆在预训练上，然后这个环节也容纳不了太多人就业，而且暂时也创造不了多少商业价值。所以很有可能一段时间后会有一个下行的阶段，现在做预训练这些创业公司死一批。然后随着应用端的工作越来越多，大家慢慢把投入方向往下移，往应用端发力，这时候会有一些找准机会和方向的公司出来。顺利的话各种LLM native应用就走入千家万户。(就纯粹我自己的想象哈哈哈)

总的来说我认为LLM肯定是一个好的方向，现在进来不管做什么，也算是比较早的了解原理的人，后面做应用应该也会有一些优势。