RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback(利用人工智能从人类反馈中扩展强化学习反馈)

论文链接: https://arxiv.org/pdf/2309.00267.pdficon-default.png?t=N7T8https://arxiv.org/pdf/2309.00267.pdf

概述

  • 问题:
    • 基于人类反馈的强化学习(RLHF)通过收集人类反馈,以强化学习方法训练LLM,可以更好地理解人类偏好。然而,这个方法有一个很大的问题:收集高质量的人类反馈非常困难和耗时。
  • 解决:
    • RLAIF是指使用LLM来代替人类标记偏好,基于这些标记数据训练奖励模型,然后进行RL微调。
    • 在这项工作中,我们直接将RLAIF与RLHF在摘要任务上进行了比较。给定一个文本和两个候选回答,我们使用现成的LLM分配一个偏好标签。然后,我们在具有对比损失的LLM偏好上训练奖励模型(RM)。最后,我们通过强化学习对策略模型进行微调,使用RM来提供奖励。

创新点

  • 证明了RLAIF在摘要任务上实现了与RLHF类似的性能
  • 比较了生成人工智能标签的各种技术,并为RLAIF从业者确定了最佳设置

技术路线

如图所示,在RLAIF中,首先使用LLM来评估给定的文本和2个候选回复,然后,这些由LLM生成的偏好数据被用来训练一个奖励模型,这个奖励模型用于强化学习,以便进一步优化LLM。

  1. 回顾2020年构建的RLHF,包括3个阶段:监督微调、奖励模型训练和基于强化学习的微调。
  2. RLAIF方法

  1. LLM的偏好标签
    1. 我们用“现成的”LLM注释候选对之间的偏好,LLM是一种针对一般用途进行预训练或调整的模型或指令,但不针对特定的下游任务。给定一段文本和两个候选摘要,LLM被要求对哪一个摘要进行评分。LLM的输入结构如下(表1中的示例):(在LLM被输入后,我们获得生成令牌“1”和“2”的对数概率,并计算softmax以导出偏好分布。)
      1. Preamble(序言)-描述任务介绍和说明
      2. Few-shot exemplars少数镜头示例(可选)-一个文本示例、一对摘要、一个思想基础链(如果适用)和偏好判断
      3. Sample to annotate(要注释的示例)——要标记的文本和一对摘要
      4. Ending-提示LLM的结束字符串(例如“Preferred Summary=”)
    2. Addressing Position Bias 寻址位置偏移
      1. 候选回复给LLM的顺序可能会偏向它喜欢的候选顺序,尤其是在 LLM 参数较小的情况下。为了减轻位置偏差的影响,作者进行了双重推理和平均处理。
    3. Chain-of-thought Reasoning Cot 思维链推理 (对小模型作用不大)
    4. 自洽(自我提升能力)
  2. Reinforcement Learning from AI Feedback 从人工智能反馈中强化学习
    1. 在LLM标记偏好之后,训练回归模型(RM)来预测偏好。由于我们的方法产生了软标签(例如,preferencesi=[0.6,0.4]),我们将交叉熵损失应用于RM产生的奖励分数的softmax,而不是第2.2节中提到的损失。softmax将RM的无界分数转换为概率分布。
    2. 在人工智能标签的数据集上训练RM可以被视为一种模型蒸馏的形式,特别是因为我们的人工智能标签机通常比我们的RM更大、更强大。另一种方法是绕过RM,直接使用AI反馈作为RL中的奖励信号,尽管AI标注器比RM更大更好用,但是这种方法的计算成本太高。
    3. 使用经过训练的RM,我们使用简单有效的改进版Advantage Actor Critic(A2C)算法进行强化学习。

评价指标

  1. AI Labeler Alignment:AI偏好相对于人类偏好的精确程度
  2. Pairwise Accuracy:训练好的奖励模型与人类偏好数据集的匹配程度
  3. Win Rate:人类在RLAIF和RLHF生成结果之间的倾向性

实验结果​​​​​​​

  1. 实验:作者使用PaLM 2 Extra-Small(XS)在OpenAI的过滤过的TL;DR数据集上训练了一个SFT模型作为baseline。
    1. 对于RLHF方法,奖励模型在OpenAI的TL;DR人类偏好数据集上进行训练。
    2. 对于RLAIF方法,使用PaLM 2 L生成AI标记的偏好
    3. 对于强化学习,使用A2C训练策略。策略和价值模型都是从SFT模型初始化的。
  2. 发现:
    1. 在性能方面:RLAIF与RLHF有相似的表现。
    2. 在人类评估上,与SFT策略相比,RLAIF被偏好71%的时间,而RLHF则被偏好73%的时间。尽管RLHF略微优于RLAIF,但这个差异在统计上并不显著。
      1. 直接对比胜率:RLAIF与RLHF在被偏好的程度上是平等的,胜率都是50%。
      2. 与人工写的摘要比较:RLAIF和RLHF生成的摘要分别在79%和80%的时间内被更偏好,与参考摘要的差异也不具统计意义。
      3. 影响因素:RLAIF和RLHF策略倾向于生成比SFT策略更长的摘要,这可能是质量提升的一个因素。
      4. 长度调整后表现:即使控制摘要的长度,RLAIF和RLHF都依然在同样的幅度内优于SFT策略。
    3. 对于prompt方式,使用详细的OpenAI preamble和CoT给出了最高的对齐性能。少样本提示并没有提高准确性,甚至可能使它变得更糟。
      1. 思维链(CoT)是一种改进的提示策略,用于提高 LLM 在复杂推理任务中的性能,如算术推理、常识推理和符号推理。CoT 没有像 ICL 那样简单地用输入输出对构建提示,而是结合了中间推理步骤,这些步骤可以将最终输出引入提示。简单来说,思维链是一种离散式提示学习,更具体地,大模型下的上下文学习(即不进行训练,将例子添加到当前样本输入的前面,让模型一次输入这些文本进行输出完成任务),相比于之前传统的上下文学习(即通过x1,y1,x2,y2,....xtest作为输入来让大模型补全输出ytest),思维链多了中间的中间的推导提示。(例:可以看到,类似的算术题,思维链提示会在给出答案之前,还会自动给出推理步骤: “罗杰先有 5 个球,2 罐 3 个网球等于 6 个,5 + 6 = 11”)
      2. Few-shot CoT 是 ICL (归纳约束逻辑 算法)的一种特殊情况,它通过融合 CoT 推理步骤,将每个演示〈input,output〉扩充为〈input,CoT,output〉。
        1. CoT 对小模型作用不大,模型参数至少达到 10B 才有效果,达到 100B 效果才明显。
        2. Self-Consistency with CoT对性能的影响如下,用T=1采样会导致与人类偏好的一致性较低。CoT 对复杂的问题的性能增益更大
    4. 对用于评估的LLM的参数大小进行了探索,发现与人类偏好的一致性随着LLM大小的增加而增加。

应用

  • 为了进一步提升模型生成的质量,HuatuoGPT 还应用了基于 AI 反馈的强化学习技术(RLAIF)。使用 ChatGPT 对模型生成的内容进行评分,考虑内容的用户友好程度,并结合医生的回答作为参考,将医生回复的质量纳入考量。
  • 例如 GPT-4 使用的基于规则的奖励模型 (RBRM) 和利用 AI 进行指正和修改生成内容的 “Constitutional AI”(Bai et al., 2022)

局限

  • 这是否能推广到其他NLP任务,还需要在更广泛的任务范围内进行实验。
  • 没有估计在经济成本方面是否优于人工标记

未来方向:

  • RLAIF与RLHF集合是否可以由于单独使用
  • 如何让LLM直接分配奖励
  • 改进AI标签对齐是否可以进一步改进策略(即模型是否可以自我改进)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值