每日论文速递 | [NeurIPS'23 Oral] DPO:Language Model 是一个 Reward Model

深度学习自然语言处理 分享
整理:pp

2b62a4453b05730957e88729e679876b.png摘要:虽然大规模无监督语言模型(LMs)可以学习广泛的世界知识和一些推理技能,但由于其训练完全不受监督,因此很难实现对其行为的精确控制。获得这种可控性的现有方法通常是通过人类反馈强化学习(RLHF),收集人类对各代模型相对质量的标签,并根据这些偏好对无监督语言模型进行微调。然而,RLHF 是一个复杂且经常不稳定的过程,首先要拟合一个反映人类偏好的奖励模型,然后利用强化学习对大型无监督 LM 进行微调,以最大限度地提高估计奖励,同时不会偏离原始模型太远。在本文中,我们介绍了 RLHF 中奖励模型的一种新参数化方法,它能以封闭形式提取相应的最优策略,使我们只需简单的分类损失就能解决标准的 RLHF 问题。由此产生的算法我们称之为直接偏好优化(DPO),它稳定、性能好、计算量小,在微调过程中无需从 LM 中采样,也无需进行大量的超参数调整。我们的实验表明,DPO 可以对 LM 进行微调,使其与人类偏好保持一致,甚至优于现有方法。值得注意的是,使用 DPO 进行的微调在控制代际情感的能力上超过了基于 PPO 的 RLHF,并且在总结和单轮对话中达到或提高了响应质量,同时在实现和训练方面也要简单得多。

https://arxiv.org/abs/2305.18290

Q1: 这篇论文试图解决什么问题?

803c5b21455a053e94aae49fe4079624.pngA:这篇论文试图解决的问题是如何在不使用复杂的强化学习(Reinforcement Learning, RL)的情况下,直接从人类偏好数据中优化大型无监督语言模型(Language Models, LMs),以实现对模型行为的精确控制。具体来说,论文提出了一种名为直接偏好优化(Direct Preference Optimization, DPO)的算法,旨在通过简化的训练流程和计算成本,实现与现有基于人类反馈的强化学习方法(如基于人类反馈的近端策略优化,Reinforcement Learning from Human Feedback, RLHF)相当或更好的性能

论文指出,现有的方法通过收集人类对模型生成内容相对质量的标签,并通过RLHF等技术对无监督LM进行微调,使其与人类偏好对齐。然而,RLHF是一个复杂且常常不稳定的过程,需要先拟合一个反映人类偏好的奖励模型,然后使用强化学习来优化大型无监督LM,以最大化估计的奖励,同时避免偏离原始模型太远DPO算法通过利用奖励函数和最优策略之间的映射,展示了如何通过单阶段策略训练精确优化受限的奖励最大化问题,本质上是在人类偏好数据上解决一个分类问题。这种方法避免了拟合奖励模型、在微调期间从LM采样或进行大量超参数调整的需要。论文的实验表明,DPO在使LM与人类偏好对齐方面,与现有方法相当或更优,特别是在控制生成内容的情感倾向、提高摘要和单轮对话的质量方面,同时实现起来更简单。

Q2: 有哪些相关研究?

4655970ee48bb61a44004437c85a48ba.pngA:这篇论文提到了以下几个相关的研究领域和具体工作:

自我监督语言模型:研究了规模不断扩大的自我监督语言模型,这些模型能够零次或少次提示完成某些任务。

指令调整(Instruction-tuning):通过在指令和人类编写的完成数据集上进行微调,可以显著提高大型语言模型(LLMs)在下游任务上的性能和与用户意图的一致性。

人类偏好的微调:使用人类偏好数据集对LLMs进行微调,以提高翻译、摘要、讲故事和遵循指令的能力。这些方法首先优化一个神经网络奖励函数,使其与偏好数据集兼容,然后使用强化学习算法(如REINFORCE、PPO或其变体)来微调语言模型。

使用人类反馈的LLMs生成合成偏好数据:利用微调过的LLMs,通过人类反馈生成额外的合成偏好数据,用于特定属性(如安全性或无害性)。

从偏好中学习策略:在强化学习和多臂老虎机设置中,有几篇文章研究了如何从偏好而非奖励中学习策略,例如上下文对偶多臂老虎机(CDB)和基于偏好的强化学习(PbRL)。

偏好模型:论文中提到了Bradley-Terry模型和Plackett-Luce排名模型,这些模型用于模拟人类偏好分布。

奖励模型的最大化和策略优化:论文讨论了如何通过最大化奖励函数来优化策略,特别是在受限的策略空间中。

控制作为推理框架:论文还提到了控制作为推理框架(Control as Inference framework)在受限的强化学习问题中的应用。

这些相关研究为论文提出的DPO算法提供了理论和技术背景,并且论文在现有研究的基础上提出了创新的方法,以简化和改进基于人类偏好的语言模型训练过程。

Q3: 论文如何解决这个问题?

1d5e25a0786750fe5aa285a70389e4f6.pngA:论文提出了一种名为直接偏好优化(Direct Preference Optimization, DPO)的算法来解决这个问题。DPO的核心思想是绕过显式的奖励建模和强化学习步骤,直接使用人类偏好数据来优化语言模型。具体来说,DPO的解决方案包括以下几个关键步骤:

1. 理论映射DPO利用了奖励函数和最优策略之间的理论映射,这个映射允许将奖励函数的损失函数转换为直接针对策略的损失函数。这样,DPO可以直接在策略空间上进行优化,而无需显式地建模奖励函数。

  1. 偏好损失函数DPO定义了一个偏好损失函数,该函数直接依赖于策略而不是奖励模型。这个损失函数基于Bradley-Terry模型或其他类似的偏好模型,它衡量了模型生成的偏好响应与人类标注的偏好之间的一致性。

  2. 单阶段策略训练:与传统的RLHF方法不同,DPO在一个单一的训练阶段中,通过最小化偏好损失函数来优化策略。这个过程不需要从模型生成的响应中采样,也不需要复杂的强化学习算法

  3. 动态重要性权重DPO在更新模型时使用动态重要性权重,这有助于防止模型退化,并且能够更有效地调整模型以偏好更高质量的响应。

  4. 实验验证:论文通过一系列实验验证了DPO算法的有效性。实验结果表明,DPO在情感调节、摘要生成和单轮对话等任务上,能够实现与现有RLHF方法相当或更好的性能,同时在实施和训练上更简单、更高效。

总的来说,DPO通过简化的训练流程和较低的计算成本,实现了对大型语言模型的直接偏好优化,从而提高了模型的可控性和性能。

Q4: 论文做了哪些实验?

f719275859d4f40b4d73b42ce685b6c0.pngA:论文中进行了以下几类实验来评估和验证Direct Preference Optimization (DPO) 算法的性能:

控制情感生成实验:在一个受控的文本生成设置中,实验要求模型生成具有正面情感的电影评论。使用IMDb数据集进行训练,并通过预训练的情感分类器生成偏好对。这个实验允许评估DPO在优化奖励和参考策略之间的KL散度权衡方面的效率。

摘要任务:在Reddit TL;DR摘要数据集上,使用GPT-2-large模型进行实验。实验通过采样测试集上的完成情况,并计算与测试集中的参考摘要相比的平均胜率来评估不同方法的性能。

单轮对话任务:在Anthropic Helpful and Harmless对话数据集上进行实验,该数据集包含人类与自动化助手之间的对话。实验通过GPT-4评估不同方法的性能,使用GPT-4作为代理来评估生成的响应的有用性和帮助性。

赢率比较:比较了DPO与其他方法(如PPO、Preferred-FT等)在摘要和对话任务上的赢率。赢率是指模型生成的文本在GPT-4评估下胜过基线策略(如SFT模型或测试集中的偏好响应)的比例。

新输入分布的泛化能力:评估了在Reddit TL;DR摘要实验中训练的PPO和DPO策略在不同分布的数据集(CNN/DailyMail新闻文章测试集)上的性能,以比较PPO和DPO策略在分布变化下的泛化能力。

人类评估:进行了人类研究,以验证GPT-4判断的可靠性。通过比较GPT-4和人类的赢率和判断一致性,来评估GPT-4作为人类评估代理的有效性。

这些实验不仅展示了DPO在特定任务上的性能,还比较了DPO与现有方法(如PPO)的性能差异,并探讨了DPO策略的泛化能力和评估方法的有效性。实验结果表明,DPO在多个任务上可以实现与现有RLHF方法相当或更好的性能,同时在实施和训练上更简单、更高效。

Q5: 有什么可以进一步探索的点?

A:论文中提出了以下几个可以进一步探索的点:

泛化能力:尽管论文提供了初步证据表明DPO策略可以在分布变化下泛化,但更全面的研究表明DPO策略与基于显式奖励函数学习的策略相比,其泛化能力如何,仍然是一个值得进一步研究的问题。

奖励过优化:在直接偏好优化设置中,奖励过优化如何表现,以及图3右侧的性能轻微下降是否是奖励过优化的一个实例,这些都是未来研究可以探讨的问题。

模型规模:论文评估了高达6B参数的模型,但探索DPO在更大数量级的最先进的模型上的扩展性是一个有趣的研究方向。

评估方法:论文发现GPT-4的赢率受到提示的影响,未来的工作可以研究如何从自动化系统中获取高质量的评估。

DPO的其他应用:除了从人类偏好中训练语言模型之外,DPO在其他模态的生成模型训练中可能有许多潜在应用,例如图像和音频生成。

自标注训练:探索使用DPO策略进行自标注训练,类似于在RLHF中使用的额外未标记的Reddit TL;DR提示,是否可以有效利用未标记的提示。

超参数调整:论文中提到,DPO的超参数β几乎没有进行调整,因此可能低估了DPO的潜力。系统地研究超参数调整对DPO性能的影响是一个有价值的研究方向。

算法改进:探索对DPO算法的潜在改进,例如通过引入正则化或更高级的优化技术来提高其稳定性和性能。

这些未解决的问题和潜在的研究方向为未来的研究提供了丰富的土壤,可能会进一步推动基于人类偏好的模型训练领域的发展。

Q6: 总结一下论文的主要内容?

A: 这篇论文的主要内容可以总结如下:

问题定义:论文旨在解决如何在不依赖复杂强化学习(RL)的情况下,直接从人类偏好数据中优化大型无监督语言模型(LMs),以实现对模型行为的精确控制。

相关工作:论文回顾了自我监督语言模型的发展、指令调整、基于人类偏好的微调、以及从偏好中学习策略的相关研究,为DPO算法提供了理论和技术背景。

DPO算法:提出了直接偏好优化(DPO)算法,它通过以下关键步骤优化语言模型:

  • 利用奖励函数和最优策略之间的理论映射。

  • 定义一个基于偏好的损失函数,直接针对策略进行优化。

  • 在单一训练阶段中,通过最小化偏好损失函数来优化策略。

  • 使用动态重要性权重来防止模型退化。

实验验证:通过一系列实验,包括控制情感生成、摘要和单轮对话任务,验证了DPO算法的有效性。实验结果表明,DPO在多个任务上可以实现与现有RLHF方法相当或更好的性能,同时在实施和训练上更简单、更高效。

未来工作:论文指出了未来研究的方向,包括DPO策略的泛化能力、奖励过优化问题、模型规模扩展性、评估方法改进、DPO的其他应用领域,以及算法本身的潜在改进。

总的来说,论文提出了一种新颖的方法来直接从人类偏好中优化语言模型,避免了复杂的强化学习步骤,并通过实验展示了其有效性和潜在的实用性。

以上内容均由KimiChat生成,深入了解论文内容仍需精读论文


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

48fabd037cb14e782cc0909193e6ee25.png

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值