大模型微调实战之 Transformer 强化学习(TRL Reinforcement Learning)(五)用 ORPO 将 Llama 3 的性能提升到新高度

大模型微调实战之 Transformer 强化学习(TRL Reinforcement Learning)(五)用 ORPO 将 Llama 3 的性能提升到新高度

尽管最近的语言模型偏好对齐算法展示了有希望的结果,但监督式微调(SFT)对于实现成功的收敛仍然至关重要。在本文中,我们研究了SFT在偏好对齐背景下的关键作用,强调对于不受青睐的生成风格只需轻微的惩罚就足以实现偏好对齐的SFT。基于这一基础,我们引入了一个简单且创新的无需参考模型的单一几率比偏好优化算法,即ORPO,消除了额外偏好对齐阶段的必要性。我们从实证和理论上都证明了,在不同大小的模型(从125M到7B)的SFT中,几率比是对比受青睐和不受青睐风格的明智选择。具体来说,仅使用UltraFeedback对Phi-2(2.7B)、Llama-2(7B)和Mistral(7B)进行ORPO微调,就超过了具有超过7B和13B参数的最先进语言模型的性能

v

ORPO

论文:ORPO: Monolithic Preference Optimization without Reference Model
在这里插入图片描述
https://arxiv.org/p

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

段智华

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值