论文阅读：2024 arxiv Some things are more CRINGE than others: Iterative Preference Optimization with the

CSPhD-winston-杨帆

已于 2025-04-24 08:43:14 修改

阅读量823

点赞数 11

文章标签：论文阅读深度学习人工智能

于 2025-04-24 08:37:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WhiffeYF/article/details/147468355

版权

Some things are more CRINGE than others: Iterative Preference Optimization with the Pairwise Cringe Loss

https://www.doubao.com/chat/3830038098162434

https://arxiv.org/pdf/2312.16682

这篇论文主要介绍了一种名为**成对尴尬损失（Pairwise Cringe Loss）**的新方法，用于优化大型语言模型（LLMs），使其更好地符合人类偏好。以下是核心内容的通俗解读：

速览

研究动机：现有二元反馈方法需拓展成对偏好场景，提升语言模型对齐效率。
研究问题：如何将Cringe Loss从二元反馈扩展至成对偏好，优化模型对齐效果？
研究方法：提出Pairwise Cringe Loss，基于概率差设计软边缘机制，结合迭代训练优化模型，对比基准方法验证效果。
研究结论：该方法在减少重复和AlpacaFarm基准中优于DPO、PPO，迭代训练可进一步提升性能，简单高效。
不足：未探索更多数据类型混合场景，硬边缘机制效果略逊，部分超参调优需经验。

1. 背景：语言模型如何对齐人类偏好？
训练语言模型时，让模型“理解”人类喜欢什么、不喜欢什么很重要。常见的方法有两种：

二元反馈（Binary Feedback）：直接告诉模型某个回答是“好”还是“坏”（例如“这个回答有用”或“这个回答重复了”）。
成对偏好（Pairwise Preferences）：给模型两个回答，让它学会“哪个更好”（例如“回答A比回答B更清晰”）。

之前已有基于二元反馈的“尴尬损失”（Cringe Loss），能让模型避免生成不好的内容。但实际中，成对偏好数据更常见（比如人类标注两个回答的优劣），所以需要将“尴尬损失”扩展到成对偏好场景。

2. 核心方法：成对尴尬损失（Pairwise Cringe Loss）

目标

让模型学会区分两个回答的优劣，强化好的回答，抑制差的回答。

原理

对比概率差距：计算“好回答”（(y^{w)）和“差回答”（(y}l)）的概率差（称为“边缘”(M)）。
- 如果概率差小（模型分不清好坏），就激活“尴尬损失”，强制模型调整；
- 如果概率差大（模型已能区分），就关闭“尴尬损失”，避免过度优化。
软边缘机制（Sigmoid Gate）：用类似开关的函数（sigmoid）平滑控制损失的开启与关闭，避免生硬的“一刀切”。

迭代优化

先用原始偏好数据训练模型，再用训练好的模型生成新回答，用“奖励模型”（类似打分器）标注新的偏好对，循环迭代训练，让模型效果越来越好。

3. 实验效果：比现有方法更优

任务1：减少重复内容

问题：语言模型常生成重复的句子（如“太阳电池板吸收阳光，吸收阳光，吸收阳光”）。
方法：用成对偏好数据训练模型，其中“好回答”无重复，“差回答”有重复。
结果：成对尴尬损失比传统的“二元尴尬损失”和DPO方法更有效，生成内容重复率接近人类水平，且质量更高（F1分数更高）。

任务2：通用指令遵循（AlpacaFarm基准）

问题：测试模型在多种指令下的表现（如“解释光合作用”“写一封邮件”）。
结果：成对尴尬损失在win rate（模型输出优于基准模型的比例）上达到54.7%，显著超过DPO（50.2%）、PPO（48.5%）等当前最优方法。

4. 关键优势

简单高效：无需复杂的强化学习框架（如PPO需要奖励模型和策略优化），直接在损失函数中处理成对偏好。
可扩展性：支持迭代训练，利用模型自身生成的数据不断优化，减少人工标注成本。
通用性：不仅适用于成对偏好，还能结合二元反馈数据，灵活适应不同场景。

5. 总结：给普通人的启示
这篇论文展示了一种更简单、高效的方法来训练语言模型，使其更懂人类喜好。未来，类似的技术可能让ChatGPT等工具生成更少错误、更符合需求的内容，同时降低训练成本。对于开发者来说，成对尴尬损失可能成为优化模型的新首选工具。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CSPhD-winston-杨帆 给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。