KTO: Model Alignment as Prospect Theoretic Optimization


前言

本博客仅为个人理解,如果有错误,可以联系我修改,谢谢!

本论文介绍了一种名为Kahneman-Tversky Optimization(KTO)的方法,用于利用前景理论将大型语言模型(LLMs)与人类反馈对齐。这种方法基于考虑了人类偏好(如厌恶损失)的人类意识损失函数(HALOs)。论文表明,流行的对齐方法如DPO、SLiC和PPO-Clip隐含地模拟了人类的偏执,使它们也成为HALOs。与目前的方法不同,KTO直接最大化模型生成的效用而不是人类偏好的对数似然。它只需要关于输出是否可取的二进制信号,这使得它更容易用于实际场景,特别是在偏好数据稀缺且昂贵的情况下。实验证明,KTO的表现优于基于偏好的方法如DPO,并且即便在极端数据不平衡的情况下也能保持良好表现。作者还讨论了KTO的理论意义,并提出了未来在不同设置中发现最佳人类意识损失函数的研究方向。
在这里插入图片描述

一、问题引入

本文通过“厌恶损失”引出了传统的偏好对其策略PPO、DPO、RLHF等都在一定程度上拟合了人的一部分偏好,导致大模型在某些场景下不会选择期望最大的决策。
Kahneman 和 Tversky 的前景理论解释了为什么人类在面对不确定事件时会做出无法最大化期望值的决策(1992)。 例如,由于人类是厌恶损失的,假设一场赌博以 80% 的概率返回 100 美元,以 20% 的概率返回 0 美元,不参加赌博直接返回60美元。在数学上,避免赌博的收益期望为60美元;而接受赌博的收益期望为0.8 * 100+0.2 * 0=80美元。大模型理论上应该选择期望最大的决策,即参加赌博;而大多数的人面对同样的场景则往往会选择不参加赌博直接获取60美元(即使这样的选择在数学上是期望更低的)。
因为人有很多类似的无法做出期望最大决策的场景,所以直接以人的偏好指导大模型的训练往往也会使大模型学到这种偏好,而无法做出期望收益更大的决策。

二、KTO与传统对齐策略的差异

1.传统对齐策略

传统的对齐策略如PPO、DPO、RLHF、SLiC等,训练数据往往是(x,y1,y2)三元组形式;其中的x为输入,y1、y2为两个输出(y1为更期望的输出)。
但是这种数据中包含了大量的人类偏好,数据本身可能就不是很合理。
场景一:如果某个场景下给出的两个答案,并没有绝对的y1好,y2不好,只是相对的y1由于y2。比如,当输入为:“一个人下班之后很累,他期望用什么交通工具回家?”,标注者可能将y1标为 “打车” 将y2标注为 “坐公交” ,但是这并不能说明 “坐公交” 是不可以接受的。
场景二:如果query只能给出一个好的结果,无法给出相对更差的结果。这种结果就无法被包括在偏好训练的数据集中。

2.KTO对齐策略

KTO对齐策略的训练数据是(x,y,if_can_accept)三元组形式,其中x为输入,y为输出,if_can_accept为y是否可以被接受作为输入x的输出。
与传统的对齐策略相比,场景二的数据就可以被标注到训练数据集种作为一条数据,而场景一中的一条训练数据可以被拆分成两条数据。
这种二分类标注的训练数据,模型模型训练之后可能会摒弃掉一些人类的偏见,生成的结果可能会更加客观。

3、KTO相较于传统对齐策略有什么优势呢?

1、简化的反馈需求:KTO方法利用简单的二进制反馈(即输出是否理想)而不是复杂的偏好等级或概率评分,这可能简化了反馈数据的收集,更适用于数据较少或者获取成本较高的场景。
2、最大化效用:与传统方法侧重于最大化对数似然的人类偏好不同,KTO直接最大化模型输出的效用,这可能提供了对真实世界效用的更好逼近。
3、鲁棒性:该方法可能在数据极端不平衡的情况下保持良好表现,即使优质数据很少,也能有效地调整和优化大型语言模型。
4、理论意义:KTO引入了前景理论进入大型语言模型的对齐过程,这在理论上是对现有方法的扩展,为未来更复杂场景下模型对齐提供了新的研究途径。
5、在实践中,KTO可能会被用于:快速对模型进行预对齐,通过大规模反馈数据集进行初步训练;精调模型对复杂输入的反应,以更好地满足实际应用需求;在在线学习或连续的模型微调过程中,当实时或即时反馈可用时,快速迭代和提升;


总结

论文展示了KTO方法优于基于偏好的方法并且在极端数据不平衡的情况下也表现良好。作者认为,与当前的方法相比,直接最大化模型生成的效用比最大化偏好的对数似然更有效,并且实现更容易。此外,KTO的使用在实际场景中是切实可行的,因为它只要求一个简单的二进制信号来指示输出是否是理想的。论文还指出了KTO的理论影响,并提出了未来可能的研究方向,包括为不同背景下探索最优的人类意识损失函数。

  • 19
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值