【NeurIPS 2023】通过贝叶斯方法使语言模型与人类偏好相对齐

cbd3cca631fff3c8a39f0fe998f9da5f.png

来源:专知
本文为论文介绍,建议阅读5分钟
本文提出了一种新颖的方法,该方法采用贝叶斯框架来考虑人类偏好中不同意见的分布,并将其命名为d-PM。

3335b62cb9e23de212aa272b38771325.png

在推进以人为中心的自然语言生成(NLG)系统的征程中,确保NLG模型与人类偏好之间的对齐至关重要。为了达到这种对齐,当前流行的方法利用了一个基于人类反馈训练的奖励模型的强化学习(RL)方法。然而,由于人类偏好的主观性质导致的固有不同意见为训练奖励模型带来了巨大的挑战,导致NLG性能的下降。为了应对这个问题,之前的方法通常依赖于多数投票或平均来整合多个不一致的偏好。尽管这样的方法易于理解和执行,但它们无法捕捉到人们之间的微妙不同意见程度,可能只代表一小部分人,从而缺乏定量揭示人类偏好普遍性的能力。为了应对这一挑战,本文提出了一种新颖的方法,该方法采用贝叶斯框架来考虑人类偏好中不同意见的分布,并将其命名为d-PM。此外,考虑到RL策略在训练效率上的低效和复杂,我们进一步提议使用对比学习策略来训练NLG模型,该模型使用从d-PM模型得到的偏好分数。在两个以人为中心的NLG任务,即情感支持对话和完整性“经验法则”生成上的广泛实验表明,我们的方法在自动和人工评估中都一致超越了先前的SOTA模型。

https://www.zhuanzhi.ai/paper/66668c6091cb215ad2cf17cb2de71dd2

96c66c54f90426fa1b97db18fc4ac75c.png

087de6a05ad73ea0b35170e7a74091cd.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值