急！现在转大模型还来得及吗？

和老莫一起学AI

已于 2024-08-23 11:04:34 修改

阅读量1.4k

点赞数 69

文章标签：人工智能 langchain 自动化学习语言模型自然语言处理大模型

于 2024-06-29 17:07:57 首次发布

本文链接：https://blog.csdn.net/2401_85373691/article/details/140067050

版权

大模型的出现，让行内和行外大多数人都感到非常焦虑。

行外很多人想了解却感到无从下手，行内很多人苦于没有硬件条件无法尝试。想转大模型方向，相关的招聘虽然层出不穷，但一般都要求有大模型经验。而更多的人，则一直处于观望之中，感觉自己只能每天看看各种自媒体，以及在聊天时的各种口嗨，难以躬身入局。

但也有不少人对其表示怀疑，巨大的算力成本和模糊的落地场景是其发展的阻碍。大家更容易将其和元宇宙等概念联系起来，视为泡沫。但技术的变革和炒作不一样，不是用Gartner曲线能度量出来的，养活一堆炒股人、自媒体只是变革附带的效应。即使人工智能的发展经历三起三落，也没有什么能阻挡历史的进程。

隔行如隔山，实际上，大模型不是泡沫，而是像深度学习本身一样，是AI的一种新技术领域。在ChatGPT家喻户晓之前，大模型已经在学术界火了两三年了。

对于NLP算法工程师来说，不是要不要转方向的问题，而是必须要跟进。就像从n-gram统计语言模型到基于RNN的神经语言模型，再到Bert等预训练语言模型一样，现在再到大语言模型，这一路的演进都是作为NLP算法工程师必须了解的。

与其焦虑，不如行动。具体如何入门，可以先从做垂类模型的公司或者小公司切入，完整地参与到大模型的生产和落地中，积累了一定经验，再决定以后的方向。

大模型需要的基础也很简单，需要的更多是实战经验。如果不做强化学习的部分，掌握语言模型的基本概念以及Transformer的原理，再了解一下常见的几类大模型的结构，就可以上手了。在实践过程中，再积累一些分布式训练的经验就够了。现在各种深度学习库乃至LLM库都越来越健全，只要做过机器学习，调用起来各种接口也应该会得心应手。

其实所谓的新的增长点，不局限于大模型本身，而是大模型是趋势，其中有无数新的增长点。如果你是技术人员，要考虑的是具体深入演进哪个子领域，写上层模型代码还是cuda编程，做预训练还是微调。可以结合当前业务场景和自身的成长需求，来选择合适的技术栈。入门之后，会有更多更细的选择，像选用哪种深度学习库，用什么框架来适配新的显卡，都是需要用长远的眼光来认真衡量的。

大模型深刻将影响AI未来的发展，算法工程师之外的其他互联网人，也都应当充分思考与其的关联。如果你是互联网创业者或者产品经理，需要考虑能将大模型具体应用到什么行业什么场景；如果你是开发人员，要考虑如何更好地将大模型结合到App中，而不只是简单地提供调模型的接口。如果你是运营，要考虑如何更好地建立用户对大模型的认知。对于非互联网人，也应该积极去拥抱变化，体验新技术带来的魅力，跟上时代的发展。

如果实在没法赶上风口，也不要紧，毕竟任何行业都存在周期性。最重要的是，进入一个行业之后，就尽量去接触这个行业的最高标准，不断沉淀积累。不能风口来了，却没有能力抓住。

但也不能完全被行业标准所禁锢，这会让一个人的理解力和判断力变得狭隘。要时刻保持开放的头脑，能跳出行业看问题。平时要多思考，多了解工作以外的事情，看清数字变化背后的本质。

每个人的情况不同，要提高判断力，在无数诱惑下更加专注，不断扪心自问对自己来说什么事情是有价值、有意义的。我们不必做所有的事情，只需要做有意义的事情。

最后，附上一些大模型面经，供需要的同学参考。

面试题笔记分享

为了助力朋友们跳槽面试、升职加薪、职业困境，提高自己的技术，本文给大家整了一套涵盖AI大模型所有技术栈的快速学习方法和笔记。目前已经收到了七八个网友的反馈，说是面试问到了很多这里面的知识点。

每一章节都是站在企业考察思维出发，作为招聘者角度回答。从考察问题延展到考察知识点，再到如何优雅回答一面俱全，可以说是求职面试的必备宝典，每一部分都有上百页内容，接下来具体展示，完整版可直接下方扫码领取。
😝朋友们如果有需要的话，可以V扫描下方二维码联系领取~
在这里插入图片描述

大模型(LLMs)基础面

1.目前主流的开源模型体系有哪些?
2.prefix LM 和 causal LM 区别是什么?
3.涌现能力是啥原因?
4.大模型 LLM的架构介绍?
大模型(LLMs)进阶面
1.llama 输入句子长度理论上可以无限长吗?
2.什么是 LLMs 复读机问题?
3.为什么会出现 LLMs 复读机问题?
4.如何缓解 LLMs 复读机问题?
5.LLMs 复读机问题
6.lama 系列问题
7.什么情况用 Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选?8.各个专业领域是否需要各自的大模型来服务?
9.如何让大模型处理更长的文本?

大模型(LLMs)微调面

1.如果想要在某个模型基础上做全参数微调，究竟需要多少显存?
2.为什么 SFT之后感觉 LLM傻了?
3.SFT 指令微调数据如何构建?
4.领域模型 Continue PreTrain 数据选取?5.领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力?
6.领域模型 Continue PreTrain ，如何让模型在预训练过程中就学习到更多的知识?7.进行 SFT操作的时候，基座模型选用Chat还是 Base?
8.领域模型微调指令&数据输入格式要求?
9.领域模型微调领域评测集构建?
10.领域模型词表扩增是不是有必要的?
11.如何训练自己的大模型?
12.训练中文大模型有啥经验?
13.指令微调的好处?
14.预训练和微调哪个阶段注入知识的?15.想让模型学习某个领域或行业的知识，是
应该预训练还是应该微调?
16.多轮对话任务如何微调模型?
17.微调后的模型出现能力劣化，灾难性遗忘
是怎么回事?

大模型(LLMs)langchain面

1.基于 LLM+向量库的文档对话基础面
2.基于 LLM+向量库的文档对话优化面
3.LLMs 存在模型幻觉问题，请问如何处理?
4.基于 LLM+向量库的文档对话思路是怎么样?
5.基于 LLM+向量库的文档对话核心技术是什么?
6.基于 LLM+向量库的文档对话 prompt 模板如何构建?
7.痛点1:文档切分粒度不好把控，既担心噪声太多又担心语义信息丢失
2.痛点2:在基于垂直领域表现不佳
3.痛点 3:langchain 内置问答分句效果不佳问题
4.痛点 4:如何尽可能召回与 query相关的Document 问题
5.痛点5:如何让 LLM基于 query和 context
得到高质量的response
6.什么是 LangChain?
7.LangChain 包含哪些核心概念?
8.什么是 LangChain Agent?
9.如何使用 LangChain ?
10.LangChain 支持哪些功能?
11.什么是 LangChain model?
12.LangChain 包含哪些特点?

大模型(LLMs):参数高效微调(PEFT)面

1.LORA篇2.QLoRA篇
3.AdaLoRA篇
4.LORA权重是否可以合入原模型?
5.LORA 微调优点是什么?
6.LORA微调方法为啥能加速训练?
7.如何在已有 LORA模型上继续训练?
1.1 什么是 LORA?
1.2 LORA 的思路是什么?
1.3 LORA 的特点是什么?
2.1 QLORA 的思路是怎么样的?
2.2 QLORA 的特点是什么?
8.3.1 AdaLoRA 的思路是怎么样的?为什么需
要提示学习(Prompting)?
9.什么是提示学习(Prompting)?10.提示学习(Prompting)有什么优点?11.提示学习(Prompting)有哪些方法，能不能稍微介绍一下它们间?
4.4.1为什么需要 P-tuning v2?
4.4.2 P-tuning v2 思路是什么?
4.4.3 P-tuning v2 优点是什么?
4.4.4 P-tuning v2 缺点是什么?
4.3.1为什么需要 P-tuning?