写给LLM新人的过来人经验,希望能帮到你!

在这里插入图片描述

一、有那么多模型,我到底该从哪个模型入门呢?

自2022年12月0penAl放出ChatGPT后,全球范围内掀起了一股狂热的LLM浪潮以下是一些目前做大模型的出名厂商及它们对应的模型/chatbot产品,我们先来看一看~

在这里插入图片描述

除了明显开源的标红了,其余的均为闭源模型

著名的开源模型,国外是Llama(dense模型的开源代表),目前最新出到Llama 3.1还有一家是Mistral,这是一家法国公司,主打MoE(Mixture ofExperts,混合专家)模型

国内则是Qwen2(通义千问实验室出品,背后是阿里,主打dense模型)和Deepseek(深度求索,背后是幻方量化)推出的最新DeepSeekV2(MoE)模型

从这里我们其实可以看出,在开源领域,从国内/国外,dense/MoE两个维度来区分,我们分别可以找到国内外相对标的公司和产品,如下表所示
在这里插入图片描述

说到这里,新手同学们可能会很迷茫,有如此多的开源模型,从入门的角度来说, 选哪一个模型入手最好呢?

这个问题答案很简单,就是Llama
原因有以下几点:
1.Llama是影响力最大的开源模型,国内众多的模型绝大多数在Llama的基础上继续训练

2.Llama的模型结构非常经典,其余基于Lama结构的魔改基本上没有出名的
3.Llama入手后,再过渡到目前产业界常用的MoE模型,从原理和技术上过渡都非常自然因此强烈建议新手同学们,从Llama模型开始上手入门

二、大模型有哪些从业方向呀?

从大方向来说,可以分2个,一个是基座,一个是应用

基座分6个方向

  • 数据,重中之重

  • 预训练(pre-train),从大规模语料库中获取广泛的知识,俗称修炼内功后训练(post-train),从有监督数据中获取说话的技巧和方式,俗称修炼招式
    1、SFT(supervised finetune),有监督微调
    2、Alignment,对齐,分为在线和离线的方法
    1) RLHF,在线方法的代表,以强化学习为基础,目前LLM常用PPO算法,但工程复杂,训练效率低,目前除了OpenAl,其它厂家不怎么用
    2) DPO(Direct Preference Optimization),直接偏好优化,从PPO和Reward Model进化而 来,无需在线采样,工程简单,与SFT的训练流程一脉相承,是现在Alignment的主流方法

  • Infra,主要做训练框架(deepspeed,megatron)的更新,供算法研究员/工程师训练使用。

  • 评估,训练完模型以后,如何知道这个模型的效果呢?这就是评估干的事情了,目前大模型的评估方法主要分以下几类:
    1、 benchmark方法,俗称卷子,大模型是学生,benchmark负责出题,根据大模型的输出判断 模G型能力(LLM judge)
    2、 arena方法,多个大模型针对同一个query,各自输出自己的答案,由用户(人)来判断大模型的好坏,再根据海量的pair数据,得出大模型的排序(elo评分)

应用分2个方向
1、RAG(Retrieve augmented generation),检索增强生成,针对私域知识补充大模型的语料库。
2、Agent,智能体(千万不要翻译成代理哈^^,这太尴尬了)
智能体其实是个很早的概念,LLM出现后,作为智能体的大脑,决定使用什么工具,调用何种API

数据是每个算法工程师的基本功,不管做什么算法方向都需要有数据的sense;大家一定不要谈到数据就天然抵触心四如果能静下心来好好看看数据,其实已经超过了90%的算法工程师~~毫不夸张

Iinfra未来应该与Nvidia深度绑定,只有硬件厂商才玩得起(毕竟只有硬件厂商最清楚如何更好的用软件驱动自家的硬件),目前业内在分布式大规模训练上主要用Megatron框架,但Megatron的资料很少,官方文档也一言难尽,反观DeepSpeed的资料会多一些,全一些,用来入门比较合适

评估方向,如果感兴趣,可以去智谱试试,智谱背靠清华,出了很多benchmark,不算是严格意义上的商业公司,更多是学校和研究院的风格,不太卷

目前业界招人的大头,基座方向聚焦在后训练的人才,以SFT和DPO对齐为主,应用方向聚焦在Agent预训练其实非常重要,但就岗位数量来说,以后的趋势是越来越少,竞争非常激烈,还是建议大家慎入!

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

三、大模型的入门学习路线应该是怎样的?

不同人的基础/背景/学习经历是不同的,针对
1.目前工作0-2年,想转行大模型的职场人
2.还在读书的学生,主动/被动转到大模型方向
3.对大模型有兴趣,但仅仅想了解它的历史和发展,暂时还无转行想法,考虑考虑再决定
4.纯粹好奇世界上目前最火爆的技术

以上4类背景的人,大彗星AIGC推荐的入门/了解行业的学习路线如下:
1.理论:了解BPE的分词方式和一些典型的token embedding方式,知道文字->向量的映射方法2.理论:从Transformer模型结构入手,了解大模型最底层的技术原理
3.理论:精读Llama结构,以Llama1为主,因为2和3代都是在数据和后训练上做文章,模型结构并无改变
4.实践:在小样本集上跑一遍Llama的预训练,熟悉整个流程5.理论:掌握sft的流程,包括数据构造,多卡训练,调参等6.实践:在小样本集上跑一遍Llama的sft过程,熟悉整个流程
7.理论:dpo的原理,公式推导
8.实践:基于llama的dpo训练过程

走完以上8步,大模型的基本原理就掌握得差不多了,如果有精力还可以考虑以下几个专题
1.数据专题
a.开源数据如何获取?
b.数据如何去重?
i.基于规则的启发式方法
i.基于模型的语义方法
c.数据如何分类,打标签?从而保证数据的多样性
d.如何保证数据的质量和困难度?
e.合成数据(synthetic data)
i.当前主流的合成数据方法都有哪些?
ii. 如何用prompt的方法合成数据?
ii.如何保证合成数据的多样性和有效性?

2.评估专题
a.如何评估大模型的能力?大模型的能力都有哪些维度?
b.针对不同的维度,有哪些典型的benchmark进行评估,每种benchmark的特点是什么
c.如何自行设计一个benchmark对大模型进行评估,整个技术路线是怎么样的?

3.长文本专题
a.如何提升大模型的长文本能力?有哪些方法,每种方法的特点和适用场景如何?
b.如何评估大模型的长文本能力?目前有哪些主流的benchmark可以使用?

4. Infra专题
a.Megatron-LM如何启动,有哪些常用参数?
b.DeepSpeed如何启动,有哪些常用参数?

5.Prompt Engineering
a.写好一个Prompt,有哪些常见套路?
b.如何高效使用各大厂商提供的API提升自己的Prompt能力?

6.Agent专题
a.什么是Agent?
b.大模型如何与Agent结合?
c.如何提高大模型的tools能力?
d.如何评估大模型的tools能力?
e.Agent目前有哪些很酷的应用?

四、如何准备大模型的简历和面试

基本知识和项目过了一遍后,就来到了写简历 ->投简历面试 ->自我反思 ->修改简历 ->投简历面试的循环中

首先就是要多投因为学习最好的方法就是重复网

  • 不用一上来就投心仪的公司,可以先用中小公司练练手,在逐步反馈中渐渐调整和提升自己。
  • 每天安排1-2场面试就好,太多了容易力不从心,也会影响后面的发挥,面试还是比较费精力的事情
  • 认真对待每一场面试,即使面试官比较那啥,尽量还是微笑以待(毕竟会留面评,当然如果笃定未来余生永远不会来这家公司,并且面试官让您很生气,那您可以,咳咳咳
  • 及时复盘,面完一场,面试官提到的知识盲区,马上查马上补~~

然后,leetcode还是要刷起来的

  • 如果不是面字节或微软的话,hot100已经足够了,不需要刷太多,leetcode只是一个入场券,大家都知道平时工作用不着~~
  • 如果心仪公司是第一点提到的那2家,建议多刷,easy和hard的可以过滤掉,专刷medium难度即可,放心,同样作为面试官的我深知,平时工作比较忙,不会在给面试者的coding选题上花太多时间,最多是标准leetcode的一点点变种~~

五、对未来的准备

目前看来,语言大模型的进展已经放缓,技术方面的原因大概是数据枯竭一互联网上能找到的文本基本训练的七七八八了

产品方面是因为语言大模型的落地比较困难,大家看到目前还没有一个以语言大模型为第一性的爆款产品出现

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

学习路线

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值