72B模型DPO微调

最新推荐文章于 2025-04-16 15:31:25 发布

小天才学习机打游戏

最新推荐文章于 2025-04-16 15:31:25 发布

阅读量1.9k

点赞数 43

文章标签：人工智能知识图谱金融 pdf 剪枝

本文链接：https://blog.csdn.net/m0_59164520/article/details/144619057

版权

一、DPO的大模型的技术点

直接偏好优化（Direct Preference Optimization，DPO）是当前将大型语言模型（LLM）与人类偏好对齐的热门方法之一。借助 LoRA 和 QLoRA 等参数高效微调技术，我们可以在单GPU卡上对拥有80 亿参数的模型（如 Llama 3.1 8B 和 Qwen2.5 7B）进行 DPO 训练，当然训练序列可能较短。但如果更大的模型，比如72B，就需要使用多GPU卡。

技术点

举个例子，假设我们想在一台拥有 8 块 H100 GPU（总共 640 GB 显存）的机器上，对一个 700 亿参数的模型进行 DPO 训练。我们需要考虑以下几点：

策略模型（Policy Model）：我们要训练的模型，占用约 140 GB 的显存。
参考模型（Reference Model）：DPO 需要一个参考模型，通常与策略模型结构相同，也占用约 140 GB 的显存。

这样，仅模型参数就已经用掉了 280 GB 的显存，大约是总显存的 43.75%。再加上优化器状态，比如使用 AdamW 优化器，每个参数会有两个额外的状态变量。如果这些状态变量以 16 位精度存储，会占用额外的 280 GB 显存。算下来，我们已经用了 560 GB 的显存，只剩下 80 GB 了。这些剩余的显存还要用于存储激活值和梯度。如果不采取特殊的方法，单靠一台机器恐怕无法训练。

二、微调并行化

我们可以使用 PyTorch 的 Fully Sharded Data Parallel（FSDP）技术，配合像 LoRA 和 QLoRA 这样的参数高效微调方法。FDSP类似于DeepSpeed的ZeRO3技术。

FSDP 是一种分布式训练技术，它可以将模型的参数、优化器状态和梯度分片，并分布到多个设备上（比如 GPU）。在前向和反向传播过程中，只有需要的参数片会被加载到内存中，计算完成后就会释放。这大大降低了内存需求。

当然在更大模型的训练的时候，可以使用 DeepSpeed 。DeepSpeed 那样需要大量的内存来存储全精度的模型参数。

在测试中，我两种方法都尝试了。我的环境是两个H100的VM：

在这里插入图片描述

我先展示使用accelerate的方法。

在这里插入图片描述

上述完整代码见我的repo。

需要指出的是，出于节省显存的目的，我设置的参考模型是通过LoRA adapter加载的，参考模型的基础模型和策略模型是一个。

启动训练：

#accelerate launch --config_file config_fsdp.yaml fsdp+QLoRA.py

三、 DPO 训练输出的各个字段解释

在 DPO 训练中，模型会被提供一组对话，每组包含相同的“提示（prompt）”或“问题（question）”，以及对应的“被选（chosen）”和“被拒（rejected）”回复。模型需要学习区分这些回复，倾向于生成高质量的“被选”回复。

DPO 训练数据解析

训练数据，包括：

来源（source）：Airoboros
被选回复（chosen）：包含多轮对话
被拒回复（rejected）：包含多轮对话
提示（prompt）：一段描述性的文字
问题（question）：与提示相同的文字

有时候数据中，“prompt” 和 “question” 可能是相同的，这在某些训练设置中可能用作对话的起始点。

在这里插入图片描述

接下来，我结合训练数据，大致介绍DPO训练的过程和结果。

在这里插入图片描述

DPO（直接偏好优化）的核心思想

1.DP的核心目标

目标： 在不显式训练奖励模型的情况下，直接利用人类偏好数据对模型进行优化。
参考模型的引入： 为了防止模型在优化过程中偏离原有的语言能力，DPO 引入了参考模型（通常是初始模型的副本，参数固定不变），作为正则化项。

2. 训练数据

提示（Prompt）： 用户输入，例如：“请解释水的三态变化。”
被选回复（Chosen Reply）： 人类评估为高质量、符合预期的回复。
被拒回复（Rejected Reply）： 人类评估为质量较低、不符合预期的回复。

3. 训练过程

步骤 1：计算对数概率

对于当前模型（参数为 θ）：

被选回复的对数概率：



`log_p_model_chosen = log( π_θ( chosen_reply | prompt ) )`

被拒回复的对数概率：



`log_p_model_rejected = log( π_θ( rejected_reply | prompt ) )`

对于参考模型（参数固定）：

被选回复的对数概率：



`log_p_ref_chosen = log( π_ref( chosen_reply | prompt ) )`

被拒回复的对数概率：



`log_p_ref_rejected = log( π_ref( rejected_reply | prompt ) )`

步骤 2：计算偏好差值

被选回复的偏好差值：



`delta_chosen = log_p_model_chosen - log_p_ref_chosen`

被拒回复的偏好差值：



`delta_rejected = log_p_model_rejected - log_p_ref_rejected`

步骤 3：构建损失函数

损失函数的形式：



`L(θ) = -log( exp( delta_chosen / β ) / [ exp( delta_chosen / β ) + exp( delta_rejected / β ) ] )`

其中，β 是控制温度的超参数。

目标： 最小化损失函数 ( L(θ) )，使得模型更倾向于生成被选回复，而不是被拒回复。

4. 示例

以您的例子为例：

Prompt（提示）： “请解释水的三态变化。”
Chosen Reply（被选回复）：

“水有三种状态：固态、液态和气态。温度的变化会导致水在这些状态之间转化，例如冰融化成水，水蒸发成水蒸气。”
Rejected Reply（被拒回复）：

“水是一种液体，在自然界中很常见。”

步骤：

计算对数概率

log_p_model_chosen = -5
log_p_model_rejected = -7
log_p_ref_chosen = -6
log_p_ref_rejected = -6
假设性的数值（用于说明）：

计算偏好差值

delta_chosen = -5 - (-6) = 1
delta_rejected = -7 - (-6) = -1

计算损失函数（β = 1）

计算分子：



`exp( delta_chosen / β ) = exp(1) ≈ 2.718`

计算分母：



`exp( delta_chosen / β ) + exp( delta_rejected / β ) = exp(1) + exp(-1) ≈ 2.718 + 0.368 ≈ 3.086`

计算损失：



`L(θ) = -log( 2.718 / 3.086 ) ≈ -log(0.880) ≈ 0.127`

损失较小，表示模型对被选回复的偏好已高于被拒回复。

优化模型参数

通过反向传播，最小化损失 ( L(θ) )，进一步提高模型对被选回复的偏好。

5. 参考模型的作用

正则化效果： 防止模型过度偏离初始语言模型，保证生成文本的质量和多样性。
稳定训练过程： 提供一个固定的对照，使模型的更新更加平稳，避免发生梯度爆炸或消失。

6. 总结

DPO 训练过程： 模型利用 prompt、chosen、rejected 和参考模型，直接优化自身，使其生成的回复更符合人类偏好。
参考模型不可或缺： 它在损失函数中提供了正则化项，确保模型在学习人类偏好的同时，保持原有的语言能力和知识。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述