论文阅读:2024 ICLR RLCD: Reinforcement Learning from Contrastive Distillation for LM Alignment

https://github.com/facebookresearch/rlcd
RLCD: Reinforcement Learning from Contrastive Distillation for LM Alignment

https://openreview.net/forum?id=v3XXtxWKi6

https://www.doubao.com/chat/3832549893298946

速览

  • 研究动机:RLHF依赖人工标注成本高,RLAIF和上下文蒸馏存在标签噪声或对比不足问题。
  • 研究问题:如何无需人工反馈,用对比提示生成高质量偏好数据以对齐语言模型。
  • 研究方法:构造正负提示生成对比输出对,训练偏好模型后通过PPO微调语言模型,避免人工标注。
  • 研究结论:RLCD在无害性、帮助性等任务中优于基线方法,尤其在小模型上效果显著。
  • 不足:未验证更大规模预训练模型,性能受提示设计影响,多语言表现未探究。

这篇论文主要介绍了一种名为RLCD(对比蒸馏强化学习)的新方法,目的是让语言模型(如LLaMA)更好地遵循人类设定的规则(比如无害性、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSPhD-winston-杨帆

给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值