大模型几种对齐方法DPO, SFT, RLHF理解学习

1. 背景

大模型为什么需要对齐?

首先我们要搞清楚一个问题:LLM大语言模型预训练是监督还是无监督学习?

答案是无监督学习。

在预训练阶段,大语言模型(LLM)通过无监督学习大量的文本数据,例如网页、电子书、新闻等,以学习词语的分布、句子的语法结构和语言常识等,这一过程是一个无监督学习过程。模型通过大规模数据自我学习,而不是通过特定任务的标签引导,这使得LLM能够获取广泛且深入的语言知识。

预训练带来一系列好处的同时,也会导致一些问题:比如模型输出与预期目标不一致;生成歧视性、偏见性或有害的内容;模型过度泛化等。

为了解决这些问题,我们一般有在后阶段采用监督微调(SFT)、直接偏好对齐(DPO)、基于人类的强化学习(RLHF)等方法。这篇文章主要介绍这三种方法。

2.监督微调 SFT (Supervised Fine-Tuning)

定义与原理:

监督微调是一种使用有监督学习来微调预训练语言模型的方法。其目标是通过有标签的数据集(通常包含输入和期望输出的示例)来优化预训练模型,使其能够更好地完成特定任务或生成符合特定要求的输出。(如图)

优势与局限:

  • 优势:能够快速提高模型在特定任务上的性能,同时保持大部分预训练知识。
  • 局限:依赖于高质量的有标签数据,且可能存在标签偏差和过拟合的风险。

3.直接偏好对齐 DPO (Direct Preference Optimization)

定义与原理:

直接偏好对齐是一种旨在直接优化模型以符合人类偏好的方法。与RLHF相比,DPO不需要额外的奖励模型或强化学习框架,而是直接优化语言模型本身。

优势与局限:

  • 优势:简化了训练流程,减少了对额外模型(如奖励模型)的依赖
  • 局限:可能需要更多的偏好数据来确保优化效果的准确性,且优化过程可能较为复杂。

4.基于人类反馈的强化学习RLHF(Reinforcement Learning from Human Feedback)

定义与原理:

RLHF是一种结合强化学习和人类反馈来优化语言模型的方法。其核心思想是通过人类的反馈来指导模型的优化过程,使模型能够生成更符合人类期望的输出。

优势与局限:

  • 优势:能够利用人类反馈来优化模型输出,使模型更符合人类期望和偏好。
  • 局限:需要大量的人类反馈数据,且训练过程较为复杂和耗时。同时,奖励模型可能存在偏差和局限性。


参考:

https://zhuanlan.zhihu.com/p/695990388

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liguiyuan112

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值