https://github.com/facebookresearch/rlcd
RLCD: Reinforcement Learning from Contrastive Distillation for LM Alignment
https://openreview.net/forum?id=v3XXtxWKi6
https://www.doubao.com/chat/3832549893298946
速览
- 研究动机:RLHF依赖人工标注成本高,RLAIF和上下文蒸馏存在标签噪声或对比不足问题。
- 研究问题:如何无需人工反馈,用对比提示生成高质量偏好数据以对齐语言模型。
- 研究方法:构造正负提示生成对比输出对,训练偏好模型后通过PPO微调语言模型,避免人工标注。
- 研究结论:RLCD在无害性、帮助性等任务中优于基线方法,尤其在小模型上效果显著。
- 不足:未验证更大规模预训练模型,性能受提示设计影响,多语言表现未探究。
这篇论文主要介绍了一种名为RLCD(对比蒸馏强化学习)的新方法,目的是让语言模型(如LLaMA)更好地遵循人类设定的规则(比如无害性、