大模型微调实战之 Transformer 强化学习(TRL Reinforcement Learning)(四) Direct Preference Optimization
直接偏好优化(DPO)已成为微调新基础模型的方式。著名的 Mixtral 8x7B 是 Mistral 创建的稀疏专家混合模型,通过使用 DPO,能够以明显更少的参数达到 LLaMa 70B 的性能水平。当然,这种成功促使社区中的许多人开始使用 DPO 微调他们自己的模型。
让我们深入了解 DPO 到底是什么以及 如何走到这一步的
高层讨论
首先从高层次上阐述微调应该做什么。一旦你预先训练了一个具有强大生成能力的模型,你通常希望以某种方式控制它的输出。无论是优化它以作为聊天机器人在对话中进行响应,还是以代码而不是英语进行响应,这里的目标都是获得已经可用的大模型,并找到一种对其输出更具选择性的方法。
关键术语:
-
损失函数——用作优化模型性能指南的函数。这是根据已发现的有效方法进行选择
-
KL 散度— 代表 Kullback-Leibler 散度,这是一种衡量两个连续概率分布