论文阅读:2024 arxiv Some things are more CRINGE than others: Iterative Preference Optimization with the

Some things are more CRINGE than others: Iterative Preference Optimization with the Pairwise Cringe Loss

https://www.doubao.com/chat/3830038098162434

https://arxiv.org/pdf/2312.16682

这篇论文主要介绍了一种名为**成对尴尬损失(Pairwise Cringe Loss)**的新方法,用于优化大型语言模型(LLMs),使其更好地符合人类偏好。以下是核心内容的通俗解读:

速览

  • 研究动机:现有二元反馈方法需拓展成对偏好场景,提升语言模型对齐效率。
  • 研究问题:如何将Cringe Loss从二元反馈扩展至成对偏好,优化模型对齐效果?
  • 研究方法:提出Pairwise Cringe Loss,基于概率差设计软边缘机制,结合迭代训练优化模型,对比基准方法验证效果。
  • 研究结论:该方法在减少重复和AlpacaFarm基准中优于DPO、PPO,迭代训练可进一步提升性能,简单高效。
  • 不足:未探索更多数据类型混合场景,硬边缘机制效果略逊,部分超参调优需经验。

1. 背景:语言模型如何对齐人类偏好?
训练语言模型时,让模型“理解”人类喜欢什么、不喜欢什么很重要。常见的方法有两种:

  • 二元反馈(Binary Feedback):直接告诉模型某个回答是“好”还是“坏”(例如“这个回答有用”或“这个回答重复了”)。
  • 成对偏好(Pairwise Preferences):给模型两个回答,让它学会“哪个更好”(例如“回答A比回答B更清晰”)。

之前已有基于二元反馈的“尴尬损失”(Cringe Loss),能让模型避免生成不好的内容。但实际中,成对偏好数据更常见(比如人类标注两个回答的优劣),所以需要将“尴尬损失”扩展到成对偏好场景。

2. 核心方法:成对尴尬损失(Pairwise Cringe Loss)

目标

让模型学会区分两个回答的优劣,强化好的回答,抑制差的回答。

原理
  • 对比概率差距:计算“好回答”((yw))和“差回答”((yl))的概率差(称为“边缘”(M))。
    • 如果概率差小(模型分不清好坏),就激活“尴尬损失”,强制模型调整;
    • 如果概率差大(模型已能区分),就关闭“尴尬损失”,避免过度优化。
  • 软边缘机制(Sigmoid Gate):用类似开关的函数(sigmoid)平滑控制损失的开启与关闭,避免生硬的“一刀切”。
迭代优化
  • 先用原始偏好数据训练模型,再用训练好的模型生成新回答,用“奖励模型”(类似打分器)标注新的偏好对,循环迭代训练,让模型效果越来越好。

3. 实验效果:比现有方法更优

任务1:减少重复内容
  • 问题:语言模型常生成重复的句子(如“太阳电池板吸收阳光,吸收阳光,吸收阳光”)。
  • 方法:用成对偏好数据训练模型,其中“好回答”无重复,“差回答”有重复。
  • 结果:成对尴尬损失比传统的“二元尴尬损失”和DPO方法更有效,生成内容重复率接近人类水平,且质量更高(F1分数更高)。

任务2:通用指令遵循(AlpacaFarm基准)

  • 问题:测试模型在多种指令下的表现(如“解释光合作用”“写一封邮件”)。
  • 结果:成对尴尬损失在win rate(模型输出优于基准模型的比例)上达到54.7%,显著超过DPO(50.2%)、PPO(48.5%)等当前最优方法。

4. 关键优势

  • 简单高效:无需复杂的强化学习框架(如PPO需要奖励模型和策略优化),直接在损失函数中处理成对偏好。
  • 可扩展性:支持迭代训练,利用模型自身生成的数据不断优化,减少人工标注成本。
  • 通用性:不仅适用于成对偏好,还能结合二元反馈数据,灵活适应不同场景。

5. 总结:给普通人的启示
这篇论文展示了一种更简单、高效的方法来训练语言模型,使其更懂人类喜好。未来,类似的技术可能让ChatGPT等工具生成更少错误、更符合需求的内容,同时降低训练成本。对于开发者来说,成对尴尬损失可能成为优化模型的新首选工具。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSPhD-winston-杨帆

给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值