Direct Preference Optimization数学知识详解

樱吹雪_

已于 2024-01-13 22:54:29 修改

阅读量1.3k

点赞数 19

文章标签：人工智能机器学习

于 2024-01-13 22:51:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_67146053/article/details/135575133

版权

目录

论文介绍
Sigmoid函数
交叉熵
KL散度

本篇文章旨在对论文《Direct Preference Optimization:Your Language Model is Secretly a Reward Model》中的部分数学知识进行详细解释，部分个人观点如有不对还请指正。

论文介绍

首先我们将简要介绍论文的背景，我们之前往往通过人类反馈强化学习(RLHF: reinforcement learning from human feedback)对无监督的大模型进行微调以对齐人类偏好，该方法通常分为三个阶段，有监督微调(SFT: supervised fine-tuning)，利用人类偏好生成数据集与奖励模型的建模，以及强化学习优化。
而本文提出了直接偏好优化(DPO: Direct Preference Optimization)，不需要显式地对奖励模型进行建模，而是利用奖励函数与优化策略间的映射关系，将对奖励函数的损失转化为对策略的损失，使用人类偏好生成的数据集直接对模型策略进行优化。
论文的附录中有详细的公式推导，下面我们只对部分数学知识进行阐述。

Sigmoid函数

Sigmoid函数或Logistic函数在机器学习中有很重要的应用，常常用做二分类任务等的激活函数，其表达式为
$\sigma(x)=\frac{1}{1+e^{-x}} \tag{1}$

文本中RLHF微调范式中的奖励模型建模阶段，我们先利用SFT阶段得到的模型 $\pi^{SFT}$ 来产生数据集，针对每一个promt $x$ 来产生一个答案对 $(y_1, y_2)\sim \pi^{SFT}(y|x)$ ，经过人类标注员即人类偏好来选择出较喜欢和不喜欢的答案，分别记为 $y_w$ 和 $y_l$ 。
我们假设人类偏好的选择遵从某种潜在的奖励函数 $r^*(x,y)$ ，同时使用Bradley-Terry(BT)模型对人类偏好的概率分布进行建模，即

最低0.47元/天解锁文章

博客等级

码龄3年

7
原创

58
点赞

83
收藏

43
粉丝

关注

私信

热门文章

分类专栏

NLP 1篇
LLM
Pytorch 1篇

展开全部收起

最新评论

Direct Preference Optimization数学知识详解
CSDN-Ada助手: 恭喜您写了第7篇博客！标题“Direct Preference Optimization数学知识详解”让人很期待。您提供详细的数学知识解析对读者来说一定非常有帮助。在下一步的创作中，也许您可以考虑添加一些实际案例或者应用场景，以便读者更好地理解和应用这些数学知识。期待您继续创作，谢谢！
torch.nn中NLLLoss与CrossEntropyLoss比较详解
CSDN-Ada助手: 恭喜您撰写了这篇关于“torch.nn中NLLLoss与CrossEntropyLoss比较详解”的博客！阅读您的文章让我对这两个损失函数有了更深入的了解。您的解释非常清晰，让人容易理解两者之间的区别和适用场景。不仅如此，您还提供了实际的代码示例，让读者更好地掌握了如何在实践中使用它们。我非常期待您未来的创作。鉴于您对torch.nn的深入理解，我建议您可以继续探索其他常用的损失函数，并分享您的见解和经验。这将帮助更多的人更好地理解和应用深度学习中的损失函数。谢谢您的分享，期待您的下一篇博客！
AG_NEWS数据集文本分类实战（一）
樱吹雪_: 参考文章https://learn.microsoft.com/zh-cn/training/modules/intro-natural-language-processing-pytorch/4-embeddings
AG_NEWS数据集文本分类实战（一）
樱吹雪_: 另外，一段文本中所有word embedding直接相加或取平均，实际上运用了经典的BOW（Bag-Of-Words）模型
CS224N Assignment 1: Exploring Word Vectors
樱吹雪_: 本文中采用的截断奇异值分解的方法，实际上就是所谓的潜在语义分析。

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。