Some things are more CRINGE than others: Iterative Preference Optimization with the Pairwise Cringe Loss
https://www.doubao.com/chat/3830038098162434
https://arxiv.org/pdf/2312.16682
这篇论文主要介绍了一种名为**成对尴尬损失(Pairwise Cringe Loss)**的新方法,用于优化大型语言模型(LLMs),使其更好地符合人类偏好。以下是核心内容的通俗解读:
速览
- 研究动机:现有二元反馈方法需拓展成对偏好场景,提升语言模型对齐效率。
- 研究问题:如何将Cringe Loss从二元反馈扩展至成对偏好,优化模型对齐效果?
- 研究方法:提出Pairwise Cringe Loss,基于概率差设计软边缘机制,结合迭代训练优化模型,对比基准方法验证效果。
- 研究结论:该方法在减少重复和AlpacaFarm基准中优于DPO、PPO,迭代训练可进一步提升性能,简单高效。
- 不足:未探索更多数据类型混合场景,硬边缘机制效果略逊,部分超参调优需经验。
1. 背景:语言模型如何对齐人类偏好?
训练语言模型时,让模型“理解”人类喜欢什么、不喜欢什么很重要。常见的方法有两种:
- 二元反馈(Binary Feedback):直接告诉模型某个回答是“好”还是“坏”(例如“这个回答有用”或“这个回答重复了”)。
- 成对偏好(Pairwise Preferences):给模型两个回答,让它学会“哪个更好”(例如“回答A比回答B更清晰”)。
之前已有基于二元反馈的“尴尬损失”(Cringe Loss),能让模型避免生成不好的内容。但实际中,成对偏好数据更常见(比如人类标注两个回答的优劣),所以需要将“尴尬损失”扩展到成对偏好场景。
2. 核心方法:成对尴尬损失(Pairwise Cringe Loss)
目标
让模型学会区分两个回答的优劣,强化好的回答,抑制差的回答。
原理
- 对比概率差距:计算“好回答”((yw))和“差回答”((yl))的概率差(称为“边缘”(M))。
- 如果概率差小(模型分不清好坏),就激活“尴尬损失”,强制模型调整;
- 如果概率差大(模型已能区分),就关闭“尴尬损失”,避免过度优化。
- 软边缘机制(Sigmoid Gate):用类似开关的函数(sigmoid)平滑控制损失的开启与关闭,避免生硬的“一刀切”。
迭代优化
- 先用原始偏好数据训练模型,再用训练好的模型生成新回答,用“奖励模型”(类似打分器)标注新的偏好对,循环迭代训练,让模型效果越来越好。
3. 实验效果:比现有方法更优
任务1:减少重复内容
- 问题:语言模型常生成重复的句子(如“太阳电池板吸收阳光,吸收阳光,吸收阳光”)。
- 方法:用成对偏好数据训练模型,其中“好回答”无重复,“差回答”有重复。
- 结果:成对尴尬损失比传统的“二元尴尬损失”和DPO方法更有效,生成内容重复率接近人类水平,且质量更高(F1分数更高)。
任务2:通用指令遵循(AlpacaFarm基准)
- 问题:测试模型在多种指令下的表现(如“解释光合作用”“写一封邮件”)。
- 结果:成对尴尬损失在win rate(模型输出优于基准模型的比例)上达到54.7%,显著超过DPO(50.2%)、PPO(48.5%)等当前最优方法。
4. 关键优势
- 简单高效:无需复杂的强化学习框架(如PPO需要奖励模型和策略优化),直接在损失函数中处理成对偏好。
- 可扩展性:支持迭代训练,利用模型自身生成的数据不断优化,减少人工标注成本。
- 通用性:不仅适用于成对偏好,还能结合二元反馈数据,灵活适应不同场景。
5. 总结:给普通人的启示
这篇论文展示了一种更简单、高效的方法来训练语言模型,使其更懂人类喜好。未来,类似的技术可能让ChatGPT等工具生成更少错误、更符合需求的内容,同时降低训练成本。对于开发者来说,成对尴尬损失可能成为优化模型的新首选工具。