大模型后训练——DPO直接偏好优化

最新推荐文章于 2025-03-24 22:52:32 发布

CM莫问

最新推荐文章于 2025-03-24 22:52:32 发布

阅读量1.8k

点赞数 18

分类专栏：大语言模型从小白到咸鱼文章标签：人工智能深度学习算法语言模型 DPO python 直接偏好优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ChaneMo/article/details/145116011

版权

一、概念

在NLP领域，诸如GPT系列、Llama等大规模预训练模型已经展示出了强大的能力。然而，在实际落地应用的过程中，这些大模型可能会产生不符合用户期望的输出（且这种情况的概率还不低）。为了使模型的输出更符合用户的偏好，学界提出了各种优化方法。本文介绍在NeurIPS 2023的论文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》中被提出的优化方法——DPO（Direct Preference Optimization，直接偏好优化）。

DPO旨在通过使用人类偏好数据来直接调整模型参数，以生成更符合预期的输出。与传统的基于RLHF等方法相比，DPO无需训练复杂的奖励模型，而是直接通过偏好数据优化模型，省略了复杂的后处理步骤。

二、原理及流程

1、原理

DPO的核心思想是通过偏好数据直接优化模型的输出概率，使得模型更倾向于生成人类偏好的结果。其工作原理可以概括为以下几点：

偏好数据格式：DPO的训练数据通常以三元组的形式提供，即（prompt, chosen, rejected），其中chosen是人类偏好的输出，rejected是不被偏好的输出。
损失函数设计：DPO通过最大化偏好输出的对数概率与最小化非偏好输出的对数概率之间的差异来优化模型。其损失函数可以表示为：

其中，是当前模型，是参考模型（通常是相同架构的预训练模型，用于防止当前模型偏离预训练模型过远，从而保持模型的稳定性和一致性），是偏好输出，是非偏好输出，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。