1. 背景
大模型为什么需要对齐?
首先我们要搞清楚一个问题:LLM大语言模型预训练是监督还是无监督学习?
答案是无监督学习。
在预训练阶段,大语言模型(LLM)通过无监督学习大量的文本数据,例如网页、电子书、新闻等,以学习词语的分布、句子的语法结构和语言常识等,这一过程是一个无监督学习过程。模型通过大规模数据自我学习,而不是通过特定任务的标签引导,这使得LLM能够获取广泛且深入的语言知识。
预训练带来一系列好处的同时,也会导致一些问题:比如模型输出与预期目标不一致;生成歧视性、偏见性或有害的内容;模型过度泛化等。
为了解决这些问题,我们一般有在后阶段采用监督微调(SFT)、直接偏好对齐(DPO)、基于人类的强化学习(RLHF)等方法。这篇文章主要介绍这三种方法。
2.监督微调 SFT (Supervised Fine-Tuning)
定义与原理:
监督微调是一种使用有监督学习来微调预训练语言模型的方法。其目标是通过有标签的数据集(通常包含输入和期望输出的示例)来优化预训练模型,使其能够更好地完成特定任务或生成符合特定要求的输出。(如图)
优势与局限:
- 优势:能够快速提高模型在特定任务上的性能,同时保持大部分预训练知识。
- 局限:依赖于高质量的有标签数据,且可能存在标签偏差和过拟合的风险。
3.直接偏好对齐 DPO (Direct Preference Optimization)
定义与原理:
直接偏好对齐是一种旨在直接优化模型以符合人类偏好的方法。与RLHF相比,DPO不需要额外的奖励模型或强化学习框架,而是直接优化语言模型本身。
优势与局限:
- 优势:简化了训练流程,减少了对额外模型(如奖励模型)的依赖
- 局限:可能需要更多的偏好数据来确保优化效果的准确性,且优化过程可能较为复杂。
4.基于人类反馈的强化学习RLHF(Reinforcement Learning from Human Feedback)
定义与原理:
RLHF是一种结合强化学习和人类反馈来优化语言模型的方法。其核心思想是通过人类的反馈来指导模型的优化过程,使模型能够生成更符合人类期望的输出。
优势与局限:
- 优势:能够利用人类反馈来优化模型输出,使模型更符合人类期望和偏好。
- 局限:需要大量的人类反馈数据,且训练过程较为复杂和耗时。同时,奖励模型可能存在偏差和局限性。
参考: