大模型小白零基础秒懂——如何从0到1训练大语言模型|大模型

最近看了OpenAI联合创始人安德烈·卡帕西(Andrej Karpathy)的教学视频Deep Dive into LLMs like ChatGPT(深入了解大语言模型),视频简介里有一段描述是这样的:It covers the full training stack of how the models are developed,也就是说这个视频涵盖了如何训练大模型的全过程。

视频教学里,大语言模型训练的神秘面纱一点点被揭开,卡帕西在介绍过程中已经十分刻意的回避了技术细节,目标是使更多的人可以看懂,但观众仍需要一些技术基础。另外,视频的时长不是十分友好,长达三个半小时。

由此产生了写这篇文章的想法,目标是在20分钟阅读时间里总结一下训练大语言模型的主要步骤,使得0技术基础的小白也能读懂。注:这篇文章只是如何训练模型的极简介绍,不含任何实操内容。让我们开始吧。

0 内容概要

\1. 什么是大语言模型?

\2. 大模型是如何工作的?

\3. 如何训练一个大模型

3.1 预训练

3.2 后训练 - 监督微调

3.3 后训练 - 强化学习

彩蛋:顿悟时刻 Aha Moment

\4. 一些个人感想

1 什么是大语言模型?

大语言模型(后续简称大模型)可以看作是一种强大的计算机程序或者应用,它能够处理复杂的任务,比如理解和生成语言、识别图像、翻译文本等。

但大模型又不同于我们日常使用的传统程序与应用,传统程序的输入与输出(回复)就好比计算器一样,输入1+1,输出一定是2,重复一万次也是如此。而大模型的输出物(文字、图像等)具有一定的随机性,即使输入完全一样,每次的输出(回复)都有差别。

在这一点上,大模型更接近人。想象一下我们问一个人你今天感觉怎样?他的回答在一天内的不同时段随着自己的心情变化会有所差别,大模型也会变。即使我们问一道答案确定的数学题,人类可能因为劳累或一时大意而回答错,大模型一样也会出错。

img

这是deepseek最新V3模型的回复,答案与分析过程自相矛盾,很显然它此刻有点“累” :)

“把大模型当人看”,而不是当作一个冷冰冰的程序与应用,更有助于理解后续的内容。

2. 大模型是如何工作的?

答案是:不知道,说不清。

好比人类是怎样写出一篇妙笔生花的文章,又是如何解决一道数学题?我们只能看见具体的过程,但并不清楚人脑内的神经元是如何工作的,对于大模型也是一样。

下面是一张经典机器学习的教学图,通过历史上的房价数据总结出波士顿的房价规律,从而可以推测出某一所房子的价值。

img

根据以上信息,我们可通过一个一元一次式来预测波士顿房价与面积的关系,例如:

房价 = 2000 * 面积 + 10000

这个公式通过2个固定参数2000和10000,处理一个输入变量面积,产生一个输出变量房价。

而大模型可以看做是一个可以处理成千上万输入变量、具有几千亿固定参数,可生成上万输出变量的复杂公式(神经网络)。当我们询问大模型具体的问题,相当于把问题逐字(更确切的说是逐token,token是一种大模型可以理解的技术字符)的输入这个几千亿参数的神经网络进行计算,从而得出结果,也就是大模型的回复。

简单来说,我们可以把大模型看做一个超级复杂的公式,这个公式具有几千亿的参数,并且这个公式在输入不变的情况下,计算结果(回复)却具有随机性。 那么大模型是如何掌握现实世界的知识,能够非常准确的回答包罗万象的问题的呢?

3. 如何训练一个大模型

大模型的训练过程,分为三步:

\1. 预训练:用现实世界的信息去训练神经网络各项参数,尽可能的去理解现实世界,得到一个基础模型。相当于人类学习过程中的啃书本,博览群书。

\2. 后训练之监督微调:由人类书写问题与解答的范例文本,并用这些文本再一次训练基础模型。相当于人类学习过程中的看例题,或者看老师在黑板上讲解具体题目的解题步骤。

3. 后训练之强化学习:针对各类问题,由大模型自己尝试数以万计的解题路径,找到可以得出正确答案的路径。相当于人类学习过程中的刷题。

注:第2步与第3步,不同的大模型训练顺序可能不一样,GPT4是先2后3,deepseek-R1是先3后2再3。

img

3.1 预训练(Pre-training

这个阶段好比一个人类超级天才,把当前世界上所能找到的书籍全部读了一遍,并且把知识“记忆”在了大脑里。注意这里用了“记忆”而不是“存储”,区别在于“存储”相当于搜集了所有的书籍,放在了仓库里;“记忆”则是通读了一遍,记在了脑子里。

训练大模型时,首先会把互联网上能找到的信息都搜集起来,这些信息需要按照一定的格式整理并存储,并且过滤掉不健康的信息。就如人类学习的知识要整理成册,并且审核内容,不能给人类幼崽读黄赌毒一类的有害书籍。

hugging face的FineWeb项目提供了这类训练信息,当然每一家大模型公司都有自己的训练用信息与数据,基本没有对外公开的。

img

FineWeb搜集了多少文本数据?44TB!什么概念呢,以汉字为例(当然FineWeb搜集的是英文资料),相当于十五万亿个汉字的信息!一个人一辈子的阅读量撑死几亿个汉字(大多数人远远达不到),按一辈子看五亿汉字计算,十五万亿汉字相当于三万人一辈子的阅读量,并且这些知识涵盖了方方面面,三百六十度无死角。

有了这些知识信息,接下来开始训练神经网络。初始时,神经网络里的几千亿参数都是随机的,训练数据流入神经网络计算出了输出信息,然后把输出信息与正确信息相比较从而计算偏差;接着,根据算法调整神经网络里的参数,使得输出信息与正确信息的偏差越来越小。好比一个人背书,先读一遍,然后边背边和书本比较,直到所背的内容与书本内容基本一致。

要把44TB的内容记得大差不差,需要上万张善于并行计算的高端算力卡(以英伟达生产的产品为代表)连续不断地训练几十天,直到最后葵花宝典练成,得到了一个几千亿参数的神经网络,称为基础模型(基模型,base model)。这一步是大模型训练花费最大,时间最长的一步。

img

预训练好比一个超级天才在图书馆里孜孜不倦的把人类积累的所有书籍读完,并且大差不差的记住了所有的知识点。这里很关键的一点请注意,这个人记住的知识都不是精确的,而是模糊的、大差不差的。

从这种意义上来说,基础模型以及最终训练完的大模型可以看做一个人类所有知识的有损压缩包(知识库),而知识点就存储在大模型上千亿的参数中。

3.2 后训练(Post-training)- 监督微调

通过预训练获得的基模型还不能与人类正常对话,需要通过后训练让基模型学会与人类对话。

如何做到这一步呢?专业术语称作Supervised Fine-Tuning(SFT),即监督微调。可以这样理解,超级天才读完图书管理所有的书籍后,只是模糊掌握了知识点,但并不知道怎么使用。于是有一个导师把如何利用知识回答问题做成了详细的示例文本,并教给了这个超级天才,天才的大脑又进化了。

img

这个通过旁人生成的示例文本对模型参数进行调整的步骤,称为有监督下(人类监督)的微小调整,微小的意思是相对于预训练来说只需要少量的计算资源与时间。

由人类导师制作的问答示范文本同样涵盖了方方面面的知识领域,而且按照严格的标准撰写,这需要花费大量的人力与时间。示范文本质量的高低,决定了SFT后模型的质量。试想一个吊儿郎当的半吊子导师制作的课件与教材,教出来的学生必然不怎么样。所以人类学习时老师很重要,大模型训练时SFT同样也很重要。

由于SFT使用的示范文本生成需要大量人力,也有人想到了偷懒的方法——用大模型来生成示范文本,于是有了UltraChat这样的项目。

3.3 后训练(Post-training)- 强化学习

如果拿一本教材里的内容来做类比:

\1. 预训练:相当于学习教材里的阐述性内容,例如定理与公理,以及对应的解释。

\2. 监督微调:相当于学习教材里的例题,包含问题、解题过程与最终答案。

3.强化学习:相当于做教材里的习题,有问题与最终答案,学生需要自己尝试找到解题的方法。英文为Reinforcement Learning (RL)。

img

在解题的过程中,学生通常需要尝试多个不同的解题思路来得到正确的答案,且得到正确答案的方法并不是唯一的。

同样的,大模型在强化学习过程中不断地调整参数,根据问题去尝试生成最终答案,并与正确答案比较。在这一过程中,能生成正确答案的参数被不断采纳与优化,从而使得模型越来越优秀。

同样,一个人类学习者通过不断地刷题,训练大脑掌握了正确的解题思路与方法。在以后面对考试或者新的问题出现时,大脑自然而然的会通过学习到的方法来解决问题。习题做得越多,尝试的方法越多,正确解决问题的能力越强。

img

而一个不眠不休、运算速度极快的大模型,其效率是人类无法比拟的。面对一个问题,大模型会短时间内尝试上万种不同的参数组合以发现最优解,从而不断逼近最优的参数组合。通过这种不需要人类干预的自我学习方式一步步增强,这就是强化学习的本质。

深度求索的Deepseek-R1模型,也就是撼动OpenAI霸主地位的模型便主要是通过这种方法训练出来的。在此之前的各类大模型,主要依靠监督微调进行训练,再辅以强化学习。

一点补充,下两段可跳过。

对于有明确答案的理科题,模型可以通过与正确答案比对来找到最佳的方法(不同参数组合)。但面对开放性问题,例如写一篇文章这种没有标准答案的问题,如何判断大模型回复的好坏?如果人类介入判断文章好坏的话,假设有1000个文章撰写类问题,每个问题做1000次迭代循环,每次迭代循环尝试1000条路径,意味着有一亿篇文章需要人类阅读后判断,这不现实。

于是有人提出了RLHF (Reinforcement Learning from Human Feedback),即基于人类反馈的强化学习。先在一亿篇文章里挑出5000篇让人类阅读,并根据文章质量排定好坏次序,然后训练一个小模型模拟人类对于文章质量好坏的判断,最后把一亿篇文章的质量都交给这个小模型去评判并反馈给大模型。

彩蛋:顿悟时刻Aha Moment

不知读者是否有过类似的体验:当刻苦的学习进行到某种程度时,某一天突然发现原本很难的题目变得简单了,原来很难理解的文章变得通俗易懂了。量变引起质变,整个人开窍了、顿悟了。

人类的学习有顿悟时刻,同样当强化学习迭代重复的次数足够多时,大模型也有它自己的顿悟时刻——Aha Moment,在deepseek-R1的训练中出现了这一时刻,模型在某次训练中发现某一种思考方式可以大幅提升回答的正确率。

img

这一刻,再次提醒我们“把大模型当人看”,而不是机器!

一句话总结:通过在预训练生成的基模型之上进行监督微调(SFT)与强化学习(RL),一个可以面向用户的大模型便诞生了。嗯,一位博览群书的学子,在老师的循循善诱之下,通过不断的刷题,终于掌握了世间大部分的知识,可以出山做牛马了。

如何学习大模型技术,享受AI红利?

面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,详尽的全套学习资料,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

无论是初学者,还是希望在某一细分领域深入发展的资深开发者,这样的学习路线图都能够起到事半功倍的效果。它不仅能够节省大量时间,避免无效学习,更能帮助开发者建立系统的知识体系,为职业生涯的长远发展奠定坚实的基础。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

read-normal-img

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

AI大模型时代的转行选择,新风口能否抵御35岁中年危机?_语言模型_02

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

AI大模型时代的转行选择,新风口能否抵御35岁中年危机?_语言模型_03

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

AI大模型时代的转行选择,新风口能否抵御35岁中年危机?_ai_04

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

AI大模型时代的转行选择,新风口能否抵御35岁中年危机?_ai_05

结语

大模型作为新时代的风口,确实为那些希望转行或寻求职业突破的人提供了广阔的舞台。然而,是否选择进入这一领域还需综合考虑自身的兴趣、特长以及长远规划。通过构建基础知识体系、参与实际项目、拓展软技能、关注跨学科融合以及建立广泛的社交网络,你可以在这个充满机遇的新领域中迅速站稳脚跟。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值