深度学习一点通:chatGPT 用到的RLHF流程,和 fine tuning有何区别?

想知道RLHF方法与微调方法之间的区别是什么?微调实际上是RLHF方法的第一步。继续阅读。

利用来自人类反馈的强化学习(RLHF)已被证明是一种有效的方法,可以使基础模型与人类偏好相一致。这种技术涉及对模型进行微调,在最近人工智能的进展中发挥了关键作用,如OpenAI的ChatGPT模型和Anthropic的Claude模型的成功所示。

RLHF的实施在模型的可用性和性能方面带来了微妙但重要的改进。这些改进包括改善语气、减轻偏见和有害元素以及实现特定领域的内容生成。本文将深入探讨RLHF在微调大型语言模型(LLM)中的应用。

理解来自人类反馈的强化学习

RLHF起源于强化学习中的一个根本挑战:对许多强化学习任务的目标的复杂性、模棱两可性和困难性的定义。这个困境导致了我们的价值观与RL系统的目标不一致,正如在论文《来自人类偏好的深度强化学习》中所强调的那样。

许多人工智能应用,尤其是在企业中,都面临着难以具体说明的目标。例如,在内容管理方面,细致的管理政策背景可能与算法的执行决策发生冲突。同样,在内容生成方面,例如自动化支持代理,要实现最佳质量也面临困难。尽管生成式人工智能可以实现经济高效的内容创作,但是在品牌风格和语气一致性方面的担忧阻碍了广泛采用。团队如何建立一个与品牌指南始终保持一致的奖励函数?在与人工智能生成的内容相关的风险较大的情况下,选择确定性的聊天机器人或人工支持代理可能是一种合理的投资。

在传统的强化学习中,明确的奖励函数可以为算法提供指导。然而,在更复杂的任务中,确定适当的奖励函数可能是具有挑战性的。在这种情况下,人类的偏好可以有效地引导人工智能系统做出正确的决策。这是因为人们,即使没有专业知识,也具有在复杂和情境化任务中导航的直觉理解能力。例如,给定一个品牌营销文案的样本,个人可以轻松评估AI生成的文案与品牌预期语气的一致程度。然而,主要的挑战在于将人类偏好直接纳入强化学习训练过程中所需的时间和成本。正如《来自人类偏好的深度强化学习》论文中所述:“直接使用人类反馈作为奖励函数对于需要数百或数千小时经验的强化学习系统来说是 prohibitively expensive(代价高得禁止使用)”。

为了应对这一挑战,研究人员引入了强化学习来自人类反馈(RLHF)的方法,其中包括训练一个奖励预测器或偏好模型来估计人类偏好。与直接向RL算法提供人类反馈相比,利用奖励预测器显著提高了过程的成本效益和可扩展性。

RLHF流程:OpenAI的见解

利用RLHF提升大型语言模型

RLHF是提高大型语言模型的实用性、准确性和减少有害偏见的强大工具。OpenAI研究人员进行的GPT-3和InstructGPT(使用RLHF进行微调的模型)比较表明,标注员“明显更喜欢”InstructGPT的输出。在真实性和有害性评估方面,InstructGPT也相对于GPT-3展示了改进。类似地,Anthropic在2022年的一篇研究论文中记录了类似的好处,指出“与简单扩展模型相比,RLHF在有益性和无害性方面有了巨大的提升。”这些研究为利用RLHF在实现大型语言模型的各种商业目标方面提供了有力的案例。

让我们来探索微调的RLHF工作流程。

第一步:收集示范数据并训练一个监督策略

为了启动大型语言模型(LLM)的微调,第一步是收集一个称为示范数据的数据集。该数据集包含文本提示及其相应的输出,代表了微调模型的期望行为。例如,在电子邮件摘要任务中,提示可以是完整的电子邮件,完成部分可以是两句话的摘要。在聊天任务中,提示可能是一个问题,完成部分可以是理想的回答。

示范数据可以从各种渠道收集,如现有数据、标注团队或甚至从模型本身生成的数据,就像自指示语言模型与自我生成指示的概念所示。根据OpenAI的微调指南,通常需要几百个高质量的示例才能成功进行微调。模型的性能往往与数据集的大小成线性关系。重要的是要手动审核示范数据集,以确保准确性,避免有害内容,减轻偏见,并提供有益的信息,正如OpenAI的研究人员所建议的那样。

像OpenAI和Cohere这样的平台提供了关于使用监督学习进行大型语言模型微调的详细指南。

第二步:收集比较数据并训练奖励模型

一旦使用监督学习对大型语言模型进行了微调,它就能够自主生成特定任务的完成部分。RLHF过程的下一个阶段涉及以比较形式收集人类反馈,比较的对象是模型生成的完成部分。这些比较数据随后用于训练奖励模型,该模型将用于通过强化学习来优化微调的监督学习模型(如第三步所述)。

为了生成比较数据,一个标注团队会对模型生成的多个完成部分进行排名。标注员将这些完成部分从最好到最差进行排序。完成部分的数量可以不同,从简单的并列比较到三个或更多完成部分的排序。在InstructGPT的微调过程中,OpenAI发现向标注员展示4到9个完成部分的范围进行排名是有效的。

有第三方供应商或工具可以帮助执行比较任务,可以直接上传模型完成部分,或通过模型端点进行实时生成。

对微调后的LLM进行与基准测试的比较是至关重要的,以评估其真实性、有益性、偏见和有害性。可以使用标准的LLM基准测试,如TruthfulQA、面向问答的偏见基准测试和用于评估有害性的RealToxicityPrompts。

第三步:使用强化学习优化监督策略

在这一步中,通过利用强化学习(RL)算法进一步优化代表微调LLM的监督学习基线。OpenAI开发的一类显著RL算法是Proximal Policy Optimization(PPO)。关于PPO算法的详细信息可以在OpenAI的网站上找到。

强化学习过程将监督策略的行为与标注员表达的偏好相一致。通过步骤2和步骤3的迭代,可以不断提高模型的性能。

以上是利用RLHF进行大型语言模型微调的工作流程。通过结合监督学习和强化学习,RLHF方法可以使模型更加符合人类偏好和意图,从而改进模型的可用性、性能和品质。这种方法已经在诸如ChatGPT和Claude等模型的成功中发挥了关键作用,并在实现各种商业目标方面展示出了巨大潜力。

需要指出的是,RLHF方法并不仅限于大型语言模型的微调,也可以应用于其他领域和任务,如推荐系统、机器人控制等。通过结合人类反馈和强化学习,RLHF提供了一种强大的方法来解决复杂任务中奖励函数定义困难的问题,从而提高AI系统的性能和适应性。

阅读

英文版

关注

公众号

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值