详细对比 SFT 和 RLHF 模型的区别

区别

众所周知,开源大模型的Chat版本普遍遵循LLM训练三部曲:预训练(Pretrain)、有监督微调(Supervised Fine-Tuning, SFT)以及基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)。然而,在实际应用中,SFT常被频繁采用,而RLHF则较少被实施。这引发了我们对RLHF独特价值的思考:RLHF的必要性何在?为何需要引入RLHF?

首先,让我们回顾SFT的基本概念。SFT是一种有监督的学习方法,通过提供明确的输入-输出对,模型学习从输入到输出的映射关系。在SFT中,主要目标是预测下一个token,并最大化其准确率。

然而,RLHF则采取了不同的策略。它首先训练一个奖励模型(reward model),使该模型能够识别哪些回复更符合人类的偏好和期望。随后,利用这个奖励模型来指导大模型的学习过程,从而确保生成的回复与人类标注更为接近。

**那么,是否每次都需要进行RLHF呢?或者说,在什么情况下应该选择SFT,何时又应该进行RLHF?**在 Robert Kirk 等人的研究中,对此进行了深入的探讨。他们主要从泛化性和多样性两个角度分析了SFT与RLHF的表现。研究发现,在模型的泛化能力上,经过RLHF训练的模型表现更为出色,超越了仅经过SFT的模型。然而,在回复的多样性方面,RLHF则显著不如SFT,即经过RLHF的模型倾向于产生更为相似的回复。

SFT后的模型能够更加精准的识别InstructionTok

  • 16
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

落难Coder

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值