奖励模型Reward Model如何训练？

最新推荐文章于 2024-07-25 11:02:24 发布

不可能打工

最新推荐文章于 2024-07-25 11:02:24 发布

阅读量1.4k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ewen_lee/article/details/131477539

版权

ChatGPT采用相对排序任务而非绝对评分来训练模型，通过RankLoss函数使模型学习句子之间的优劣顺序。这种方法有助于简化标注工作并优化模型性能，损失函数计算前后句子得分差以最大化好句子与坏句子的得分差距。

摘要由CSDN通过智能技术生成

image.png

如上图所示，ChatGPT 并不是直接让人工去标注每一句话的真实得分是多少(尽管模型最终要预测的就是每句话的得分)，而是让人去对 4 句话按照好坏程度进行「排序」。

通过这个「排序序列」，模型将会学习如何为每一个句子进行打分，用「相对任务」替代「绝对任务」能够更方便标注员打出统一的标注结果。

Rank Loss

假定现在有一个排好的序列：A > B > C >D。

我们需要训练一个打分模型，模型给四句话打出来的分要满足 r(A) > r(B) > r(C) > r(D)。

那么，我们可以使用下面这个损失函数：

image.png

其中，yw 代表排序排在 yl 的所有句子。

用上述例子(A > B > C > D)来讲，loss 应该等于：

loss = r(A) - r(B) + r(A) - r(C) + r(A) - r(D) + r(B) - r(C) + ... + r(C) - r(D)
loss = -loss
为了更好的归一化差值，我们对每两项差值都过一个 sigmoid 函数将值拉到 0 ~ 1 之间。

可以看到，loss 的值等于排序列表中所有「排在前面项的reward」减去「排在后面项的reward」的和。

而我们希望模型能够「最大化」这个「好句子得分」和「坏句子得分」差值，而梯度下降是做的「最小化」操作。

因此，我们需要对 loss 取负数，就能实现「最大化差值」的效果了。

不可能打工

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
奖励模型Reward Model如何训练？

image.png如上图所示，ChatGPT 并不是直接让人工去标注每一句话的真实得分是多少(尽管模型最终要预测的就是每句话的得分)，而是让人去对 4 句话按照好坏程度进行「排序」。通过这个「排序序列」，模型将会学习如何为每一个句子进行打分，用「相对任务」替代「绝对任务」能够更方便标注员打出统一的标注结果。Rank Loss假定现在有一个排好的序列：A > B > C...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。