【论文阅读】ChipNeMo中的对齐技术,《SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF》

前面总体学习了《ChipNeMo: Domain-Adapted LLMs for Chip Design》,然后又继续仔细看了论文中的领域适配分词领域数据微调的预训练检索模型数据集处理,最后再学习其中用到的对齐技术,完成这篇论文的学习。
ChipNeMo中的对齐技术叫做SteerLM,是在另外一篇论文《SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF》中讲述的。
最近,Meta的AI产品总监Joe Spisak在介绍LLama3时,有这样一段讲述,“我们在后训练阶段投入了大量的工作,我想大家都喜欢谈论预训练,以及我们扩大了规模,使用的 GPU 数量达到了数万个,以及在预训练中使用了多少数据,但实际上,真正的关键在于后训练阶段。这就是我们目前花费大部分时间的地方,我们在这里生成了大量的人工注释,执行了大量的有监督微调(SFT),我们正在做的事情,比如拒绝采样、PPO、DPO,尝试在这些模型的可用性、人类特征以及预训练中的大规模数据之间找到平衡,这就是我们如何思考这些问题的。”由此可以想象,SFT和对齐技术,在后续的LLM的发展中更加值得关注。
在这里插入图片描述

摘要

与人类偏好保持一致的模型对齐是使大型语言模型(LLMs)有用且与人类价值观一致的重要步骤。它通常包括监督式微调(SFT)和基于人类反馈的强化学习(RLHF)阶段。然而,RLHF 面临着固有的局限性,这些局限性源于复杂的训练设置,以及它倾向于将模型与最终用户在运行时无法控制的隐含价值观保持一致。此外,RLHF阶段中的奖励模型通常依赖单一维度的反馈,而不是明确、多方面的信号,这些信号表明了诸如有用性、幽默和毒性等属性。为了解决这些局限性,我们提出了SteerLM,一种监督式微调方法,允许最终用户在推理期间控制响应。SteerLM 使响应符合明确定义的多维属性集,从而使可操纵的 AI (steerable AI)能够生成有用且高质量的响应,同时保持可定制性。实验表明,在开源数据集上训练的 SteerLM 产生的响应比许多使用 RLHF 训练的最先进的基线更受人类和自动评估者青睐,同时更容易训练。在 https://huggingface.co/nvidia/SteerLM-llama2-13B 试用 SteerLM。

1 引言

在广泛的文本语料库上训练 LLM 已经显示出非凡的能力,从而在许多任务上取得了最先进的性能。但是,这并不能自动使语言模型有效地响应用户指令。为了更好地使 LLM 与人类的偏好保持一致,最有效的方法是执行 SFT,然后应用 RLHF。在 SFT 中,人工注释者提供指令和响应的示例,供模型模仿。RLHF更进一步,使模型能够生成人类注释者更偏好的响应。
在这里插入图片描述
图1: SteerLM可以用来提高语言模型响应的质量,类似于RLHF。此外,SteerLM允许用户在推理时定义额外的属性,如幽默和(低)毒性,以引导模型响应。

然而,尽管这种方法取得了成功,但它也有局限性。首先,单独使用SFT不允许模型区分高质量和低质量的响应,导致性能低于RLHF。然而,使用RLHF进行模型对齐,显著增加了训练设置的复杂性,限制了其普遍应用。此外,RLHF将人类对模型响应的偏好视为单一维度,没有考虑到有助于这种偏好的多样性方面(例如有用性、幽默、毒性),从而限制了用户在推理时根据用例调整各个方面的能力。

为了解决这些局限性,我们引入了SteerLM,一种通过SFT对模型对齐的新方法,克服了传统SFT和RLHF方法的局限性。与RLHF类似,SteerLM通过利用Open-Assistant数据集中每个响应中存在的注释属性(例如质量、幽默、毒性)来整合额外的奖励信号。为了模拟评分响应的过程,我们训练了一个属性预测模型(§3.1),并用于注释包含对话的数据集(§3.2),这些数据集包含可以分解为提示-响应对的对话。通过利用这个包含提示、响应和预测属性组成的组合多样化数据集,我们根据提示指令和注释属性为条件,训练响应的生成 (§3.3),使SteerLM能够有效地捕捉人类偏好并生成与之一致的响应。

与 RLHF 相比,SteerLM 还表现出增强的多功能性,允许在推理过程中灵活利用各种属性。为了进一步增强 SteerLM 在推理过程中对指定属性的遵守,我们引入了一个额外的训练配方 (§3.4),其中包括使用去噪、多样化和高质量的示例来增强训练数据。我们在NVIDIA NeMo工具包上开源了SteerLM的代码。:

  • 我们引入了SteerLM作为一种简单的语言模型对齐替代方案,仅使用语言建模目标,
  • 我们证明了在Vicuna基准测试上训练的SteerLM 43B的效力,它超越了包括ChatGPT-3.5在内的最新基准模型,包括RLHF模型,
  • 我们强调了SteerLM 43B的灵活性和可定制性,用户可以在推理时定制属性,从而促进了各种应用。

2 相关工作

使用SFT进行模型对齐

在多个任务上微调语言模型使它们能够遵循许多类型的指令,并执行它们所训练的任务之外的任务(Sanh et al., 2022; Wei et al., 2022)。然而,当在学术数据集上进行监督微调时,语言模型通常会产生简短和机械的响应。另一方面,当使用高质量的人类示例进行训练时,模型可以生成高质量的类似人类的响应(Conover et al., 2023; Ouyang et al., 2022)。Taori et al. (2023)展示了使用OpenAI的text-davinci-003模型生成的数据,可以以经济高效的方式训练模型。

最近,仅使用SFT进行模型对齐变得流行,因为它的训练设置很容易。Zhang et al. (2023)和Peng et al. (2023)使用OpenAI模型生成的响应训练模型,而Dettmers et al. (2023)和Köpf et al. (2023b)使用了众包的Open Assistant数据集,Zhou et al. (2023)使用了一个小型专有数据集。Wang et al. (2023b)和Taori et al. (2023)使用来自语言模型本身的引导数据集训练模型。Luo et al. (2023)展示了语言模型可以通过在指令的复杂性和广度上发展来学习解决复杂指令。Wang et al. (2023a)比较了许多用于执行指令调整的开源数据集,但发现它们的表现不如使用RLHF训练的商业模型。

使用RLHF进行模型对齐

在游戏和机器人模拟中的基础工作(Christiano et al., 2017; Schulman et al., 2017)上,许多人通过给予与响应相对可取性成比例的奖励,成功地将RLHF应用于提高LLM的指令遵循能力(Ouyang et al., 2022; Bai et al., 2022)。这种方法已经被证明对下游任务如问答(Nakano et al., 2022)和摘要(Stiennon et al., 2022)有益。然而,训练设置的复杂性(Rafailov et al., 2023; Snell et al., 2023)仍然是RLHF广泛采用的一个障碍。许多人试图通过将RLHF训练迁移到离线设置(Snell et al., 2023),将问题视为条件序列建模(Chen et al., 2021),直接使用标记偏好数据优化LLMs(Rafailov et al., 2023),或对响应进行排名以使模型对齐(Dong et al., 2023; Yuan et al., 2023),但进展有限(Wang et al., 2023a)。

相关工作的另一个未解决的局限性在于使用单一维度奖励函数评估人类对模型响应的偏好,因为人类偏好基于多种现实世界目标(例如有用性、幽默、毒性),这些目标也因领域而异(Nadal and Chatterjee, 2019; Lopez-Paz et al., 2022)。鉴于这些多维属性,当前的方法(Bai et al., 2022; Ouyang et al., 2022; Dong et al., 2023; Yuan et al., 2023)只能生成具有高奖励分数的响应,尽管在某些情况下,各种属性的低奖励分数也是相关的,例如模拟能够生成高毒性响应的真实游戏NPC。

属性基础生成

许多研究人员在对话任务中探索了具有各种属性的基础文本。Rashkin等人(2019)模拟基于“生气”、“尴尬”或“快乐”等情绪的闲聊对话,而Smith等人(2020)则以对话风格为基础调节闲聊对话,如“好奇”、“有同情心”或“知识渊博”。Zhang et al. (2018)和Wang et al. (2022)基于个人属性(例如他们的爱好)进行有条件的对话。Meta 等人 (2022)使用预期的玩家技能在外交游戏中进行有条件的对话。然而,这种基础化只在具有单一属性的狭义任务中进行了探索。我们的方法旨在使用多种属性(例如,质量、幽默和毒性)来调节一般开放领域对话中响应的生成,涵盖代码帮助、写诗和计划任务等任务。

3 SteerLM

在这里插入图片描述
图2:SteerLM:第 1 步,基本语言模型经过训练,通过预测属性值来评估响应的质量。第2步,属性预测模型用于注释不同数据集的响应质量。第 3 步,给定提示和所需的属性值,对新的基本模型进行微调,以生成与指定属性一致的响应。第 4 步,在步骤 3 中,从微调模型中抽取多个响应,并指定最高质量。采样的响应由经过训练的属性预测模型进行评估,从而进行另一轮微调。

我们提出了 SteerLM,这是一种简单而新颖的方法,用于调整语言模型以遵循用户指令。它仅使用语言建模目标进行训练,为RLHF等其他技术提供了一种计算效率高的替代方案。具体而言,SteerLM包括4个步骤,如图2所示。

第三章详细介绍了SteerLM方法的四个主要步骤。

3.1 步骤1. 属性预测模型

类似于RLHF中的奖励模型,SteerLM中的属性预测模型旨在预测人类对模型响应的偏好,以改善模型对齐。与RLHF中的单一奖励信号相比,属性预测模型可以用来预测在生成良好响应中被认为重要的各种属性(高质量、低毒性和根据上下文变化的幽默水平)。

我们使用Open Assistant (OASST) 数据集 𝐷,其中每个样本包含一个提示 𝑥,一个响应 𝑦 以及一组属性 𝑣。为了对这些属性进行建模,我们首先将每个属性(最初是0到1之间的浮点数)缩放到0到9之间的整数,然后获取属性值 𝑣 的线性表示。我们选择的属性看起来像 quality:6, toxicity:0, humor:9, creativity:0, violence:0, helpfulness:5, not_appropriate:0。
在这里插入图片描述
以𝑥和𝑦作为条件,𝑣是语言模型的目标输出,如方程 1 所示。

3.2 步骤2. 使用属性预测模型注释数据集

与直接使用人工注释的属性相比,训练属性预测模型可以允许对其他数据集(例如HH-RLHF数据集)进行注释。这有助于提高训练数据的多样性,这对于步骤 3 属性条件 SFT 很重要。此外,据观察,众包人工注释数据经常受到噪音的影响,这是由于对指令的误解、注释响应方面的专业知识/教育不足以及语言理解能力有限等因素造成的。此外,注释者之间缺乏校准,有些人在分配满分时应用了更严格的标准。通过采用属性预测模型,可以通过对人工注释的属性进行去噪和校准注释者之间的分数来缓解这些问题。
在这里插入图片描述
我们通过使用属性预测模型贪婪地解码提示和响应对的值属性来注释样本(如方程2所示),以构建属性注释数据集 D′。

3.3 步骤3. 属性条件SFT

属性条件SFT是常规SFT的扩展,它通过属性标签使奖励信号信息得以纳入。这允许以类似于已建立的SFT+RLHF流程的方式从高质量和低质量响应中学习。属性条件SFT仅需要一个离线注释的数据集(如在步骤 2 中创建),而不是像RLHF那样的在线采样和评估响应。通过利用纯离线训练方法,与RLHF的异构设置相比,这大大简化了训练配置。特别是,它避免了在线数据生成/评估的复杂性,并消除了 RLHF 中内存带宽受限的在线推理导致的训练缓慢。通过使用第2步创建的属性注释训练数据集 D′,我们训练一个模型,以生成一个响应 𝑦,条件是价值属性 𝑣 和提示 𝑥。损失函数为:
在这里插入图片描述

3.4 步骤4. 使用高质量样本进行引导

通过采样策略网络,RLHF有效地导航了语言模型的响应空间,并识别出各种质量的响应。随后,这些响应样本被用来根据它们的奖励值影响和塑造语言模型的行为。在SteerLM的第4步中,目标是通过利用前几步中的属性条件SFT和属性预测模型来实现类似的目标。

步骤4a

为确保我们获得一组多样化的响应,我们首先枚举训练中使用的所有可能的属性值组合。通过过滤将质量值明确设置为9(即最高可能值)的组合,我们得到一个代表高质量集的属性字符串子集 V。我们从这个高质量集 V 中均匀采样得到属性字符串 v′。通过将 v′ 与相同训练数据集的提示组合,我们使用 top-k(=50) 采样生成多个响应,如方程 3 所示。

在这里插入图片描述
这使我们能够为每个提示获得各种各样的响应,并增加采样数据集的多样性D′′={(𝑥,𝑦′)}。
具有贪婪抽样的属性预测模型 (§3.1) 用于评估生成的响应𝑦′给出预测属性值𝑣′′:
在这里插入图片描述

这为我们提供了数据集D′′′={(𝑥,𝑦′,𝑣′′)},其中,每个元组由来自原始训练数据集的提示、采样响应及其相应的预测属性值组成。

步骤4b

我们使用 D′′′ 中的采样响应及其相应的预测属性来执行第二轮属性条件SFT,有效地允许我们引导模型对自己的响应进行训练:
在这里插入图片描述

4 实验 (Experiments)

  • 训练数据集:使用了多个开源的指令调整数据集,包括OASST、HH-RLHF和M-SID。
  • 基础模型:介绍了SteerLM 43B和SteerLM 13B两个基础语言模型,并解释了它们的训练细节。
  • 训练细节:包括使用的硬件、批次大小、训练轮数、序列长度、优化器和学习率等。
  • 评估:与多个现有的指令遵循模型进行比较,使用Vicuna基准进行评估,包括自动评估和人工评估。
  • 结果:SteerLM 43B在自动和人工评估中均优于所有基线模型。

5 消融研究 (Ablation Study)

  • 属性标签的添加:在微调过程中添加属性标签显著提高了性能。
  • 仅对高质量数据进行微调:仅使用OASST数据集中质量最高的一小部分样本进行微调,也提高了性能。
  • 使用属性预测模型:与直接使用人工注释相比,使用属性预测模型进行属性条件微调对SteerLM 43B的性能有显著提升。
  • 使用Anthropic HH-RLHF数据增强训练数据:与仅使用Open-Assistant数据相比,使用Anthropic HH-RLHF数据进一步提高了性能。
  • 自举高质量样本:通过采样策略增加了数据的多样性,略微提高了性能。

6 可控性演示 (Steerability demonstration)

  • 毒性(Toxicity):展示了SteerLM 43B如何根据不同的毒性值设置调整其响应,使用Anthropic Red-team数据集进行演示。
  • 幽默(Humor):通过不同的提示,展示了SteerLM 43B在生成幽默内容方面的能力,与ChatGPT-3.5进行了比较。

7 结论 (Conclusion)

我们介绍了SteerLM,这是一种新颖的模型对齐方法,它具有可由用户在推理时调整的价值系统(例如幽默水平和毒性容忍度),而无需重新训练。SteerLM仅使用监督式微调来训练属性预测模型和语言模型,与使用RLHF相比,实现了一个更易于实施和更直接的训练过程。我们遵循这一程序训练了SteerLM模型,并在Vicuna基准测试上取得了最先进的结果。我们通过人工评估验证了这些结果,发现SteerLM优于我们与之比较的其他模型。我们希望我们的工作能激发进一步的研究,开发出更简单有效的模型对齐方法,为每个人赋予更好的AI助手。

限制 (Limitations)

  • 讨论了SteerLM的局限性,包括相对于参数高效微调算法(如低秩适应和提示微调技术)在GPU小时和能源方面的成本较高。
  • 评估仅限于英文基准测试,需要在多语言基准测试中评估模型以验证其有效性。

论文地址:https://ar5iv.labs.arxiv.org/html/2310.05344

(欢迎大家关注公众号:老无谈藏书票)

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值