大模型小白零基础秒懂——如何从0到1训练大语言模型|大模型

少喝冰美式

于 2025-02-27 17:54:33 发布

阅读量1k

点赞数 33

文章标签：语言模型人工智能 python LLM 大语言模型自然语言处理 AI大模型

本文链接：https://blog.csdn.net/python12222_/article/details/145910318

版权

“ 最近看了OpenAI联合创始人安德烈·卡帕西（Andrej Karpathy）的教学视频Deep Dive into LLMs like ChatGPT（深入了解大语言模型），视频简介里有一段描述是这样的：It covers the full training stack of how the models are developed，也就是说这个视频涵盖了如何训练大模型的全过程。

视频教学里，大语言模型训练的神秘面纱一点点被揭开，卡帕西在介绍过程中已经十分刻意的回避了技术细节，目标是使更多的人可以看懂，但观众仍需要一些技术基础。另外，视频的时长不是十分友好，长达三个半小时。

由此产生了写这篇文章的想法，目标是在20分钟阅读时间里总结一下训练大语言模型的主要步骤，使得0技术基础的小白也能读懂。注：这篇文章只是如何训练模型的极简介绍，不含任何实操内容。让我们开始吧。”

0 内容概要

\1. 什么是大语言模型？

\2. 大模型是如何工作的？

\3. 如何训练一个大模型

3.1 预训练

3.2 后训练 - 监督微调

3.3 后训练 - 强化学习

彩蛋：顿悟时刻 Aha Moment

\4. 一些个人感想

1 什么是大语言模型？

大语言模型（后续简称大模型）可以看作是一种强大的计算机程序或者应用，它能够处理复杂的任务，比如理解和生成语言、识别图像、翻译文本等。

但大模型又不同于我们日常使用的传统程序与应用，传统程序的输入与输出（回复）就好比计算器一样，输入1+1，输出一定是2，重复一万次也是如此。而大模型的输出物（文字、图像等）具有一定的随机性，即使输入完全一样，每次的输出（回复）都有差别。

在这一点上，大模型更接近人。想象一下我们问一个人你今天感觉怎样？他的回答在一天内的不同时段随着自己的心情变化会有所差别，大模型也会变。即使我们问一道答案确定的数学题，人类可能因为劳累或一时大意而回答错，大模型一样也会出错。

这是deepseek最新V3模型的回复，答案与分析过程自相矛盾，很显然它此刻有点“累” ：）

“把大模型当人看”，而不是当作一个冷冰冰的程序与应用，更有助于理解后续的内容。

2. 大模型是如何工作的？

答案是：不知道，说不清。

好比人类是怎样写出一篇妙笔生花的文章，又是如何解决一道数学题？我们只能看见具体的过程，但并不清楚人脑内的神经元是如何工作的，对于大模型也是一样。

下面是一张经典机器学习的教学图，通过历史上的房价数据总结出波士顿的房价规律，从而可以推测出某一所房子的价值。

根据以上信息，我们可通过一个一元一次式来预测波士顿房价与面积的关系，例如：

房价 = 2000 * 面积 + 10000

这个公式通过2个固定参数2000和10000，处理一个输入变量面积，产生一个输出变量房价。

而大模型可以看做是一个可以处理成千上万输入变量、具有几千亿固定参数，可生成上万输出变量的复杂公式（神经网络）。当我们询问大模型具体的问题，相当于把问题逐字（更确切的说是逐token，token是一种大模型可以理解的技术字符）的输入这个几千亿参数的神经网络进行计算，从而得出结果，也就是大模型的回复。

简单来说，我们可以把大模型看做一个超级复杂的公式，这个公式具有几千亿的参数，并且这个公式在输入不变的情况下，计算结果（回复）却具有随机性。那么大模型是如何掌握现实世界的知识，能够非常准确的回答包罗万象的问题的呢？

3. 如何训练一个大模型

大模型的训练过程，分为三步：

\1. 预训练：用现实世界的信息去训练神经网络各项参数，尽可能的去理解现实世界，得到一个基础模型。相当于人类学习过程中的啃书本，博览群书。

\2. 后训练之监督微调：由人类书写问题与解答的范例文本，并用这些文本再一次训练基础模型。相当于人类学习过程中的看例题，或者看老师在黑板上讲解具体题目的解题步骤。

3. 后训练之强化学习：针对各类问题，由大模型自己尝试数以万计的解题路径，找到可以得出正确答案的路径。相当于人类学习过程中的刷题。

注：第2步与第3步，不同的大模型训练顺序可能不一样，GPT4是先2后3，deepseek-R1是先3后2再3。

3.1 预训练（Pre-training）

这个阶段好比一个人类超级天才，把当前世界上所能找到的书籍全部读了一遍，并且把知识“记忆”在了大脑里。注意这里用了“记忆”而不是“存储”，区别在于“存储”相当于搜集了所有的书籍，放在了仓库里；“记忆”则是通读了一遍，记在了脑子里。

训练大模型时，首先会把互联网上能找到的信息都搜集起来，这些信息需要按照一定的格式整理并存储，并且过滤掉不健康的信息。就如人类学习的知识要整理成册，并且审核内容，不能给人类幼崽读黄赌毒一类的有害书籍。

hugging face的FineWeb项目提供了这类训练信息，当然每一家大模型公司都有自己的训练用信息与数据，基本没有对外公开的。

FineWeb搜集了多少文本数据？44TB！什么概念呢，以汉字为例（当然FineWeb搜集的是英文资料），相当于十五万亿个汉字的信息！一个人一辈子的阅读量撑死几亿个汉字（大多数人远远达不到），按一辈子看五亿汉字计算，十五万亿汉字相当于三万人一辈子的阅读量，并且这些知识涵盖了方方面面，三百六十度无死角。

有了这些知识信息，接下来开始训练神经网络。初始时，神经网络里的几千亿参数都是随机的，训练数据流入神经网络计算出了输出信息，然后把输出信息与正确信息相比较从而计算偏差；接着，根据算法调整神经网络里的参数，使得输出信息与正确信息的偏差越来越小。好比一个人背书，先读一遍，然后边背边和书本比较，直到所背的内容与书本内容基本一致。

要把44TB的内容记得大差不差，需要上万张善于并行计算的高端算力卡（以英伟达生产的产品为代表）连续不断地训练几十天，直到最后葵花宝典练成，得到了一个几千亿参数的神经网络，称为基础模型（基模型，base model）。这一步是大模型训练花费最大，时间最长的一步。

预训练好比一个超级天才在图书馆里孜孜不倦的把人类积累的所有书籍读完，并且大差不差的记住了所有的知识点。这里很关键的一点请注意，这个人记住的知识都不是精确的，而是模糊的、大差不差的。

从这种意义上来说，基础模型以及最终训练完的大模型可以看做一个人类所有知识的有损压缩包（知识库），而知识点就存储在大模型上千亿的参数中。

3.2 后训练（Post-training）- 监督微调

通过预训练获得的基模型还不能与人类正常对话，需要通过后训练让基模型学会与人类对话。

如何做到这一步呢？专业术语称作Supervised Fine-Tuning（SFT），即监督微调。可以这样理解，超级天才读完图书管理所有的书籍后，只是模糊掌握了知识点，但并不知道怎么使用。于是有一个导师把如何利用知识回答问题做成了详细的示例文本，并教给了这个超级天才，天才的大脑又进化了。

这个通过旁人生成的示例文本对模型参数进行调整的步骤，称为有监督下（人类监督）的微小调整，微小的意思是相对于预训练来说只需要少量的计算资源与时间。

由人类导师制作的问答示范文本同样涵盖了方方面面的知识领域，而且按照严格的标准撰写，这需要花费大量的人力与时间。示范文本质量的高低，决定了SFT后模型的质量。试想一个吊儿郎当的半吊子导师制作的课件与教材，教出来的学生必然不怎么样。所以人类学习时老师很重要，大模型训练时SFT同样也很重要。

由于SFT使用的示范文本生成需要大量人力，也有人想到了偷懒的方法——用大模型来生成示范文本，于是有了UltraChat这样的项目。

3.3 后训练（Post-training）- 强化学习

如果拿一本教材里的内容来做类比：

\1. 预训练：相当于学习教材里的阐述性内容，例如定理与公理，以及对应的解释。

\2. 监督微调：相当于学习教材里的例题，包含问题、解题过程与最终答案。

3.强化学习：相当于做教材里的习题，有问题与最终答案，学生需要自己尝试找到解题的方法。英文为Reinforcement Learning (RL)。

在解题的过程中，学生通常需要尝试多个不同的解题思路来得到正确的答案，且得到正确答案的方法并不是唯一的。

同样的，大模型在强化学习过程中不断地调整参数，根据问题去尝试生成最终答案，并与正确答案比较。在这一过程中，能生成正确答案的参数被不断采纳与优化，从而使得模型越来越优秀。

同样，一个人类学习者通过不断地刷题，训练大脑掌握了正确的解题思路与方法。在以后面对考试或者新的问题出现时，大脑自然而然的会通过学习到的方法来解决问题。习题做得越多，尝试的方法越多，正确解决问题的能力越强。

而一个不眠不休、运算速度极快的大模型，其效率是人类无法比拟的。面对一个问题，大模型会短时间内尝试上万种不同的参数组合以发现最优解，从而不断逼近最优的参数组合。通过这种不需要人类干预的自我学习方式一步步增强，这就是强化学习的本质。

深度求索的Deepseek-R1模型，也就是撼动OpenAI霸主地位的模型便主要是通过这种方法训练出来的。在此之前的各类大模型，主要依靠监督微调进行训练，再辅以强化学习。

一点补充，下两段可跳过。

对于有明确答案的理科题，模型可以通过与正确答案比对来找到最佳的方法（不同参数组合）。但面对开放性问题，例如写一篇文章这种没有标准答案的问题，如何判断大模型回复的好坏？如果人类介入判断文章好坏的话，假设有1000个文章撰写类问题，每个问题做1000次迭代循环，每次迭代循环尝试1000条路径，意味着有一亿篇文章需要人类阅读后判断，这不现实。

于是有人提出了RLHF (Reinforcement Learning from Human Feedback)，即基于人类反馈的强化学习。先在一亿篇文章里挑出5000篇让人类阅读，并根据文章质量排定好坏次序，然后训练一个小模型模拟人类对于文章质量好坏的判断，最后把一亿篇文章的质量都交给这个小模型去评判并反馈给大模型。

彩蛋：顿悟时刻Aha Moment

不知读者是否有过类似的体验：当刻苦的学习进行到某种程度时，某一天突然发现原本很难的题目变得简单了，原来很难理解的文章变得通俗易懂了。量变引起质变，整个人开窍了、顿悟了。

人类的学习有顿悟时刻，同样当强化学习迭代重复的次数足够多时，大模型也有它自己的顿悟时刻——Aha Moment，在deepseek-R1的训练中出现了这一时刻，模型在某次训练中发现某一种思考方式可以大幅提升回答的正确率。