深度学习一点通：chatGPT 用到的RLHF流程，和 fine tuning有何区别？

robot_learner

已于 2023-06-19 10:05:58 修改

阅读量825

点赞数 1

文章标签： chatgpt 深度学习人工智能

于 2023-06-19 09:10:05 首次发布

本文链接：https://blog.csdn.net/robot_learner/article/details/131280499

版权

RLHF是一种通过人类反馈强化学习来优化大型语言模型的方法，涉及微调过程，改善模型的语气、减轻偏见和有害内容。OpenAI和Anthropic的研究表明RLHF在提高模型质量和一致性方面有效，如ChatGPT和Claude模型所示。该过程包括收集示范数据、训练奖励模型和使用强化学习优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

想知道RLHF方法与微调方法之间的区别是什么？微调实际上是RLHF方法的第一步。继续阅读。

利用来自人类反馈的强化学习（RLHF）已被证明是一种有效的方法，可以使基础模型与人类偏好相一致。这种技术涉及对模型进行微调，在最近人工智能的进展中发挥了关键作用，如OpenAI的ChatGPT模型和Anthropic的Claude模型的成功所示。

RLHF的实施在模型的可用性和性能方面带来了微妙但重要的改进。这些改进包括改善语气、减轻偏见和有害元素以及实现特定领域的内容生成。本文将深入探讨RLHF在微调大型语言模型（LLM）中的应用。

理解来自人类反馈的强化学习

RLHF起源于强化学习中的一个根本挑战：对许多强化学习任务的目标的复杂性、模棱两可性和困难性的定义。这个困境导致了我们的价值观与RL系统的目标不一致，正如在论文《来自人类偏好的深度强化学习》中所强调的那样。

许多人工智能应用，尤其是在企业中，都面临着难以具体说明的目标。例如，在内容管理方面，细致的管理政策背景可能与算法的执行决策发生冲突。同样，在内容生成方面，例如自动化支持代理，要实现最佳质量也面临困难。尽管生成式人工智能可以实现经济高效的内容创作，但是在品牌风格和语气一致性方面的担忧阻碍了广泛采用。团队如何建立一个与品牌指南始终保持一致的奖励函数？在与人工智能生成的内容相关的风险较大的情况下，选择确定性的聊天机器人或人工支持代理可能是一种合理的投资。

在传统的强化学习中，明确的奖励函数可以为算法提供指导。然而，在更复杂的任务中，确定适当的奖励函数可能是具有挑战性的。在这种情况下，人类的偏好可以有效地引导人工智能系统做出正确的决策。这是因为人们，即使没有专业知识，也具有在复杂和情境化任务中导航的直觉理解能力。例如，给定一个品牌营销文案的样本，个人可以轻松评估AI生成的文案与品牌预期语气的一致程度。然而，主要的挑战在于将人类偏好直接纳入强化学习训练过程中所需的时间和成本。正如《来自人类偏好的深度强化学习》论文中所述：“直接使用人类反馈作为奖励函数对于需要数百或数千小时经验的强化学习系统来说是 prohibitively expensive（代价高得禁止使用）”。

为了应对这一挑战，研究人员引入了强化学习来自人类反馈（RLHF）的方法，其中包括训练一个奖励预测器或偏好模型来估计人类偏好。与直接向RL算法提供人类反馈相比，利用奖励预测器显著提高了过程的成本效益和可扩展性。

RLHF流程：OpenAI的见解

利用RLHF提升大型语言模型

RLHF是提高大型语言模型的实用性、准确性和减少有害偏见的强大工具。OpenAI研究人员进行的GPT-3和InstructGPT（使用RLHF进行微调的模型）比较表明，标注员“明显更喜欢”InstructGPT的输出。在真实性和有害性评估方面，InstructGPT也相对于GPT-3展示了改进。类似地，Anthropic在2022年的一篇研究论文中记录了类似的好处，指出“与简单扩展模型相比，RLHF在有益性和无害性方面有了巨大的提升。”这些研究为利用RLHF在实现大型语言模型的各种商业目标方面提供了有力的案例。

让我们来探索微调的RLHF工作流程。

第一步：收集示范数据并训练一个监督策略

为了启动大型语言模型（LLM）的微调，第一步是收集一个称为示范数据的数据集。该数据集包含文本提示及其相应的输出，代表了微调模型的期望行为。例如，在电子邮件摘要任务中，提示可以是完整的电子邮件，完成部分可以是两句话的摘要。在聊天任务中，提示可能是一个问题，完成部分可以是理想的回答。

示范数据可以从各种渠道收集，如现有数据、标注团队或甚至从模型本身生成的数据，就像自指示语言模型与自我生成指示的概念所示。根据OpenAI的微调指南，通常需要几百个高质量的示例才能成功进行微调。模型的性能往往与数据集的大小成线性关系。重要的是要手动审核示范数据集，以确保准确性，避免有害内容，减轻偏见，并提供有益的信息，正如OpenAI的研究人员所建议的那样。

像OpenAI和Cohere这样的平台提供了关于使用监督学习进行大型语言模型微调的详细指南。