走进大模型：大模型训练指南

IT猫仔

于 2024-09-14 08:00:00 发布

阅读量332

点赞数 12

文章标签：人工智能学习语言模型自然语言处理数据库

本文链接：https://blog.csdn.net/2301_82275412/article/details/142213537

版权

大模型训练指南

在人工智能的浩瀚浪潮中，大模型如同一股不可小觑的力量，正以前所未有的方式重塑着技术的边界与应用的广度。这些模型，以其庞大的参数规模、复杂的网络结构以及强大的学习能力，在诸多领域展现出了令人瞩目的优异性能。从自然语言处理到计算机视觉，从语音识别到跨模态理解，大模型几乎覆盖了人工智能应用的每一个角落，引领着技术发展的新风尚。今天，让我们一起走进大模型，了解大模型是如何训练出来的。

预处理

当我们需要一个专业领域的 LLM 时，预训练模型中的知识就尤为重要。由于大多数预训练模型都是在通用训练语料上进行学习，对特殊领域的概念知识无法很好地理解。因此我们需要一个适配我们业务领域的LLM。这通常都要进行预训练。在大模型预训练阶段，数据准备工作是至关重要的，它直接影响到模型训练的效果和模型的泛化能力。数据准备工作主要包括数据收集、数据清洗等多个环节。

·数据收集

数据收集是大模型预训练的第一步，其目标是获取足够多、高质量且多样化的数据。数据的来源可以包括公开数据集、企业内部数据、合作方提供的数据等。

·数据清洗

数据清洗是数据准备的关键环节，其目的是提高数据质量，减少噪声和异常值对模型训练的影响。

·模型训练

在模型训练过程中，我们期望充分的资源利用和更好的训练效果。充分的资源利用依赖于并行手段。并行主要包含数据并行，张量并行和模型并行。数据并行就是创建多个节点，每个节点包含全部的模型文件和部分数据，然后进行模型训练，将梯度同步到主节点；张量并行就是将大型矩阵乘法分解为较小的子矩阵计算，然后使用多个GPU同时执行这些计算；模型并行就是将一个比较大的模型切分到多个节点上，然后以类似流水线的形式进行训练。

·模型评测

对于传统生成类语言模型，传统的评价指标是生成文本和目标之间的相似度。但是在大模型效果评测中，人们发现仅仅句子通顺已经难以满足大众的的需求。为此，我们需要另一个指标：知识蕴含能力。

指令微调

在完成第一阶段的预训练后，就可以开始进到指令微调阶段了。由于预训练任务的本质在于「续写」，而「续写」的方式并一定能够很好的回答用户的问题。因为训练大多来自互联网中的数据，我们无法保证数据中只存在存在规范的「一问一答」格式，这就会造成预训练模型通常无法直接给出人们想要的答案。但是，这并不代表预训练模型「无知」，只是需要我们用一些巧妙的「技巧」来引导出答案。

强化学习

强化学习（Reinforcement Learning，RL）是机器学习的一种方法，受到行为心理学的启发，主要用于训练智能系统（AI）在与环境（environment）交互的过程中通过学习获得最佳策略（policy），以实现某一目标。在强化学习中，AI通过不断尝试各种动作（action），观察环境的反馈（reward和下一个状态），来调整自己的行为策略。最终目标是使AI在与环境的交互中获得的累积奖励最大化。目前比较主流的三种方法为：BON，DPO，PPO。

1.BON

BON 也叫 reject sampling，是指我们通过设置 temperature 值让同一个模型生成若干回复，然后使用reward model挑出得分最高的回复继续训练模型。

2.DPO

DPO也叫Direct Preference Optimization，即直接偏好优化用于直接优化用户或专家的偏好，而非传统的累积奖励。在DPO中，通过对比不同的决策序列或策略，并根据用户或专家的偏好来优化模型，使得最终的策略能够更好地符合预期的行为。DPO通常用于那些难以明确定义奖励函数的场景，或者在用户偏好需要直接编码到决策过程中的应用中。

3.PPO

SPO(Self-PlayPreference Optimization)是基于Minimax Winner（MW）的概念进行构建，不需要学习奖励函数，也能更好地处理样本中的非传递性关系，同时在有噪声偏好上和非马尔可夫偏好上表现得更好。SPO将从偏好样本中学习的问题建模为两个策略之间的零和博弈，从一个策略中采样出多条轨迹，让人类评估者或奖励模型对它们进行评估，之后使用采样出的策略相对于其他策略更优的比例作为特定轨迹的奖励。

综上，大模型的训练过程可划分为三个关键阶段：预训练、指令微调和强化学习。在预训练阶段，大模型广泛吸收客观世界的知识，构建起坚实的知识基础。随后，指令微调阶段针对特定任务，如将模型的能力从文本续写转向问答模式，进一步提升其任务适应性。最后，强化学习阶段通过不断优化，使模型的输出更加贴近人类的使用偏好，确保其回答既准确又符合预期。这三个阶段相辅相成，共同推动大模型向更高水平的智能发展。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：