RLAIF：一个不依赖人工的RLHF替代方案

最新推荐文章于 2025-05-10 12:46:36 发布

zenRRan

最新推荐文章于 2025-05-10 12:46:36 发布

阅读量999

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27590277/article/details/132769778

版权

深度学习自然语言处理原创
作者：Winnie

LLM可以标记人类偏好数据，用于强化学习吗？尽管之前有一些类似的研究，但从没有人系统地对比RLHF和RLAIF的性能。今天，我们为大家带来一项Google最新的研究，来看看LLM是否懂得人类的偏好。

Paper: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Link： https://arxiv.org/abs/2309.00267

进NLP群—>加入NLP交流群

基于人类反馈的强化学习(RLHF)通过收集人类反馈，以强化学习方法训练LLM，可以更好地理解人类偏好。然而，这个方法有一个很大的问题：收集高质量的人类反馈非常困难和耗时。

那有没有更好的方法呢？

🌟 RLAIF方法

RLAIF即Reinforcement learning from AI feedback。顾名思义，RLAIF是指使用LLM来代替人类标记偏好，基于这些标记数据训练奖励模型，然后进行RL微调。

下图是一个展示了RLAIF(上)和RLHF(下)的基本流程。

如图所示，在RLAIF中，首先使用LLM来评估给定的文本和2个候选回复，然后，这些由LLM生成的偏好数据被用来训练一个奖励模型，这个奖励模型用于强化学习，以便进一步优化LLM。

一个LLM用于评估回复的prompt示例如下图，遵循以下流程：

Preamble-描述任务介绍和说明
Few-shot exemplars(可选)
Sample to annotate
结束字符串

在这篇研究中，作者还探索了：

避免位置偏差: 候选回复喂给LLM的顺序可能会偏向它喜欢的候选顺序，尤其是在 LLM 参数较小的情况下。为了减轻位置偏差的影响，作者进行了双重推理和平均处理。
prompt改进: 还尝试了使用思维链（CoT）推理和self-consistency等方法促进LLM的评估。

🎯 实验结果

作者使用PaLM 2 Extra-Small(XS)在OpenAI的过滤过的TL;DR数据集上训练了一个SFT模型作为baseline。

对于RLHF方法，奖励模型在OpenAI的TL;DR人类偏好数据集上进行训练。
对于RLAIF方法，使用PaLM 2 L生成AI标记的偏好
对于强化学习，使用A2C训练策略。策略和价值模型都是从SFT模型初始化的。

实验主要有以下发现：

在性能方面：RLAIF与RLHF有相似的表现。

在人类评估上，与SFT策略相比，RLAIF被偏好71%的时间，而RLHF则被偏好73%的时间。尽管RLHF略微优于RLAIF，但这个差异在统计上并不显著。
直接对比胜率：RLAIF与RLHF在被偏好的程度上是平等的，胜率都是50%。
与人工写的摘要比较：RLAIF和RLHF生成的摘要分别在79%和80%的时间内被更偏好，与参考摘要的差异也不具统计意义。
影响因素：RLAIF和RLHF策略倾向于生成比SFT策略更长的摘要，这可能是质量提升的一个因素。
长度调整后表现：即使控制摘要的长度，RLAIF和RLHF都依然在同样的幅度内优于SFT策略。

下图是SFT，RLHF和RLAIF策略生成的示例摘要。RLHF和RLAIF 比SFT产生更高质量的摘要。

对于prompt方式，使用详细的OpenAI preamble和CoT给出了最高的对齐性能。少样本提示并没有提高准确性，甚至可能使它变得更糟。

Self-Consistency with CoT对性能的影响如下，用T=1采样会导致与人类偏好的一致性较低。

作者还对用于评估的LLM的参数大小进行了探索，发现与人类偏好的一致性随着LLM大小的增加而增加。

🔮 总结

这项工作似乎暗示RLAIF是一个不依赖于人工标注的、与RLHF可行的替代方案。但是，为了更好地了解这些发现是否能推广到其他NLP任务，还需要在更广泛的任务范围内进行实验。

进NLP群—>加入NLP交流群

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。