大模型几种对齐方法DPO, SFT, RLHF理解学习

liguiyuan112

已于 2024-09-26 15:59:07 修改

阅读量1.1k

点赞数 4

文章标签：人工智能大语言模型 DPO对齐 SFT RLHF

于 2024-09-26 15:57:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012505617/article/details/142551523

版权

1. 背景

大模型为什么需要对齐？

首先我们要搞清楚一个问题：LLM大语言模型预训练是监督还是无监督学习？

答案是无监督学习。

在预训练阶段，大语言模型（LLM）通过无监督学习大量的文本数据，例如网页、电子书、新闻等，以学习词语的分布、句子的语法结构和语言常识等，这一过程是一个无监督学习过程。模型通过大规模数据自我学习，而不是通过特定任务的标签引导，这使得LLM能够获取广泛且深入的语言知识。

预训练带来一系列好处的同时，也会导致一些问题：比如模型输出与预期目标不一致；生成歧视性、偏见性或有害的内容；模型过度泛化等。

为了解决这些问题，我们一般有在后阶段采用监督微调（SFT）、直接偏好对齐（DPO）、基于人类的强化学习（RLHF）等方法。这篇文章主要介绍这三种方法。

2.监督微调 SFT (Supervised Fine-Tuning)

定义与原理：

监督微调是一种使用有监督学习来微调预训练语言模型的方法。其目标是通过有标签的数据集（通常包含输入和期望输出的示例）来优化预训练模型，使其能够更好地完成特定任务或生成符合特定要求的输出。（如图）

优势与局限：

优势：能够快速提高模型在特定任务上的性能，同时保持大部分预训练知识。
局限：依赖于高质量的有标签数据，且可能存在标签偏差和过拟合的风险。

3.直接偏好对齐 DPO (Direct Preference Optimization)

定义与原理：

直接偏好对齐是一种旨在直接优化模型以符合人类偏好的方法。与RLHF相比，DPO不需要额外的奖励模型或强化学习框架，而是直接优化语言模型本身。

优势与局限：

优势：简化了训练流程，减少了对额外模型（如奖励模型）的依赖
局限：可能需要更多的偏好数据来确保优化效果的准确性，且优化过程可能较为复杂。

4.基于人类反馈的强化学习RLHF(Reinforcement Learning from Human Feedback)

定义与原理：

RLHF是一种结合强化学习和人类反馈来优化语言模型的方法。其核心思想是通过人类的反馈来指导模型的优化过程，使模型能够生成更符合人类期望的输出。

优势与局限：

优势：能够利用人类反馈来优化模型输出，使模型更符合人类期望和偏好。
局限：需要大量的人类反馈数据，且训练过程较为复杂和耗时。同时，奖励模型可能存在偏差和局限性。

参考：

https://zhuanlan.zhihu.com/p/695990388

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

liguiyuan112 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。