Group Robust Preference Optimization in Reward-free RLHF
https://www.doubao.com/chat/3870738843518978
https://arxiv.org/pdf/2405.20304
速览
- 研究动机 传统RLHF忽视群体偏好差异,导致模型对少数群体表现不佳,需提升群体鲁棒性。
- 研究问题 如何使大语言模型在多样化群体偏好中实现稳健对齐,避免“一刀切”带来的不公平?
- 研究方法 提出GRPO框架,结合群体信息与无奖励优化,通过自适应加权优先优化最差群体损失,理论分析收敛性并设计交替更新算法。
- 研究结论 GRPO显著提升最差群体性能,减少群体间损失失衡,在合成和真实数据中优于非鲁棒基线,增强模型公平性。
- 不足 在数据平衡场景优势有限,最坏情况优化可能降低平均性能,需进一步权衡参数调节。
这篇论文主