写给LLM新人的过来人经验，希望能帮到你！

最新推荐文章于 2024-10-03 14:54:57 发布

AI大模型-搬运工

最新推荐文章于 2024-10-03 14:54:57 发布

阅读量325

点赞数 14

文章标签：大语言模型自然语言处理 LLM 大模型入门大模型大模型学习深度学习

本文链接：https://blog.csdn.net/2401_84208172/article/details/142613049

版权

在这里插入图片描述

一、有那么多模型，我到底该从哪个模型入门呢?

自2022年12月0penAl放出ChatGPT后，全球范围内掀起了一股狂热的LLM浪潮_{以下是一些目前做大模型的出名厂商及它们对应的模型/chatbot产品，我们先来看一看}~

在这里插入图片描述

除了明显开源的标红了，其余的均为闭源模型

著名的开源模型，国外是Llama(dense模型的开源代表)，目前最新出到Llama 3.1还有一家是Mistral，这是一家法国公司，主打MoE(Mixture ofExperts，混合专家)模型

国内则是Qwen2(通义千问实验室出品，背后是阿里，主打dense模型)和Deepseek(深度求索，背后是幻方量化)推出的最新DeepSeekV2(MoE)模型

从这里我们其实可以看出，在开源领域，从国内/国外，dense/MoE两个维度来区分，我们分别可以找到国内外相对标的公司和产品，如下表所示
在这里插入图片描述

说到这里，新手同学们可能会很迷茫，有如此多的开源模型，从入门的角度来说， 选哪一个模型入手最好呢?

这个问题答案很简单，就是Llama
原因有以下几点:
1.Llama是影响力最大的开源模型，国内众多的模型绝大多数在Llama的基础上继续训练

2.Llama的模型结构非常经典，其余基于Lama结构的魔改基本上没有出名的
3.Llama入手后，再过渡到目前产业界常用的MoE模型，从原理和技术上过渡都非常自然因此强烈建议新手同学们，从Llama模型开始上手入门

二、大模型有哪些从业方向呀?

从大方向来说，可以分2个，一个是基座，一个是应用

基座分6个方向

数据，重中之重
预训练(pre-train)，从大规模语料库中获取广泛的知识，俗称修炼内功后训练(post-train)，从有监督数据中获取说话的技巧和方式，俗称修炼招式
1、SFT(supervised finetune)，有监督微调
2、Alignment，对齐，分为在线和离线的方法
1） RLHF，在线方法的代表，以强化学习为基础，目前LLM常用PPO算法，但工程复杂，训练效率低，目前除了OpenAl，其它厂家不怎么用
2） DPO(Direct Preference Optimization)，直接偏好优化，从PPO和Reward Model进化而来，无需在线采样，工程简单，与SFT的训练流程一脉相承，是现在Alignment的主流方法
Infra，主要做训练框架(deepspeed，megatron)的更新，供算法研究员/工程师训练使用。
评估，训练完模型以后，如何知道这个模型的效果呢?这就是评估干的事情了，目前大模型的评估方法主要分以下几类:
1、 benchmark方法，俗称卷子，大模型是学生，benchmark负责出题，根据大模型的输出判断模G型能力(LLM judge)
2、 arena方法，多个大模型针对同一个query，各自输出自己的答案，由用户(人)来判断大模型的好坏，再根据海量的pair数据，得出大模型的排序(elo评分)

应用分2个方向
1、RAG(Retrieve augmented generation)，检索增强生成，针对私域知识补充大模型的语料库。
2、Agent，智能体(千万不要翻译成代理哈^^,这太尴尬了)
智能体其实是个很早的概念，LLM出现后，作为智能体的大脑，决定使用什么工具，调用何种API

数据是每个算法工程师的基本功，不管做什么算法方向都需要有数据的sense;大家一定不要谈到数据就天然抵触心四如果能静下心来好好看看数据，其实已经超过了90%的算法工程师~~毫不夸张

Iinfra未来应该与Nvidia深度绑定，只有硬件厂商才玩得起(毕竟只有硬件厂商最清楚如何更好的用软件驱动自家的硬件)，目前业内在分布式大规模训练上主要用Megatron框架，但Megatron的资料很少，官方文档也一言难尽，反观DeepSpeed的资料会多一些，全一些，用来入门比较合适

评估方向，如果感兴趣，可以去智谱试试，智谱背靠清华，出了很多benchmark，不算是严格意义上的商业公司，更多是学校和研究院的风格，不太卷

目前业界招人的大头，基座方向聚焦在后训练的人才，以SFT和DPO对齐为主，应用方向聚焦在Agent预训练其实非常重要，但就岗位数量来说，以后的趋势是越来越少，竞争非常激烈，还是建议大家慎入!

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

三、大模型的入门学习路线应该是怎样的?

不同人的基础/背景/学习经历是不同的，针对
1.目前工作0-2年，想转行大模型的职场人
2.还在读书的学生，主动/被动转到大模型方向
3.对大模型有兴趣，但仅仅想了解它的历史和发展，暂时还无转行想法，考虑考虑再决定
4.纯粹好奇世界上目前最火爆的技术

以上4类背景的人，大彗星AIGC推荐的入门/了解行业的学习路线如下:
1.理论:了解BPE的分词方式和一些典型的token embedding方式，知道文字->向量的映射方法2.理论:从Transformer模型结构入手，了解大模型最底层的技术原理
3.理论:精读Llama结构，以Llama1为主，因为2和3代都是在数据和后训练上做文章，模型结构并无改变
4.实践:在小样本集上跑一遍Llama的预训练，熟悉整个流程5.理论:掌握sft的流程，包括数据构造，多卡训练，调参等6.实践:在小样本集上跑一遍Llama的sft过程，熟悉整个流程
7.理论:dpo的原理，公式推导
8.实践:基于llama的dpo训练过程

走完以上8步，大模型的基本原理就掌握得差不多了，如果有精力还可以考虑以下几个专题
1.数据专题
a.开源数据如何获取?
b.数据如何去重?
i.基于规则的启发式方法
i.基于模型的语义方法
c.数据如何分类，打标签?从而保证数据的多样性
d.如何保证数据的质量和困难度?
e.合成数据(synthetic data)
i.当前主流的合成数据方法都有哪些?
ii. 如何用prompt的方法合成数据?
ii.如何保证合成数据的多样性和有效性?

2.评估专题
a.如何评估大模型的能力?大模型的能力都有哪些维度?
b.针对不同的维度，有哪些典型的benchmark进行评估，每种benchmark的特点是什么
c.如何自行设计一个benchmark对大模型进行评估，整个技术路线是怎么样的?

3.长文本专题
a.如何提升大模型的长文本能力?有哪些方法，每种方法的特点和适用场景如何?
b.如何评估大模型的长文本能力?目前有哪些主流的benchmark可以使用?

4. Infra专题
a.Megatron-LM如何启动，有哪些常用参数?
b.DeepSpeed如何启动，有哪些常用参数?

5.Prompt Engineering
a.写好一个Prompt，有哪些常见套路?
b.如何高效使用各大厂商提供的API提升自己的Prompt能力?

6.Agent专题
a.什么是Agent?
b.大模型如何与Agent结合?
c.如何提高大模型的tools能力?
d.如何评估大模型的tools能力?
e.Agent目前有哪些很酷的应用?

四、如何准备大模型的简历和面试

基本知识和项目过了一遍后，就来到了写简历 ->投简历面试 ->自我反思 ->修改简历 ->投简历面试的循环中

首先就是要多投因为学习最好的方法就是重复网

不用一上来就投心仪的公司，可以先用中小公司练练手，在逐步反馈中渐渐调整和提升自己。
每天安排1-2场面试就好，太多了容易力不从心，也会影响后面的发挥，面试还是比较费精力的事情
认真对待每一场面试，即使面试官比较那啥，尽量还是微笑以待(毕竟会留面评，当然如果笃定未来余生永远不会来这家公司，并且面试官让您很生气，那您可以，咳咳咳
及时复盘，面完一场，面试官提到的知识盲区，马上查马上补~~

然后，leetcode还是要刷起来的

如果不是面字节或微软的话，hot100已经足够了，不需要刷太多，leetcode只是一个入场券，大家都知道平时工作用不着~~
如果心仪公司是第一点提到的那2家，建议多刷，easy和hard的可以过滤掉，专刷medium难度即可，放心，同样作为面试官的我深知，平时工作比较忙，不会在给面试者的coding选题上花太多时间，最多是标准leetcode的一点点变种~~