Aligning language models to follow instructions（调整语言模型以遵循指令）

最新推荐文章于 2024-05-17 16:43:38 发布

sin(38.1727063)

最新推荐文章于 2024-05-17 16:43:38 发布

阅读量64

点赞数

文章标签：语言模型自然语言处理人工智能

本文链接：https://blog.csdn.net/RichardPan0000/article/details/132558189

版权

OpenAI API 由 GPT-3 语言模型提供支持，可以使用精心设计的文本提示来引导该模型执行自然语言任务。但这些模型也可能产生不真实、有毒或反映有害情绪的输出。这部分是因为 GPT-3 被训练来预测大型互联网文本数据集上的下一个单词，而不是安全地执行用户想要的语言任务。换句话说，这些模型与其用户不一致。

为了使我们的模型更安全、更有帮助、更一致，我们使用了一种称为基于人类反馈的强化学习 (RLHF) 的现有技术。根据我们的客户向 API 提交的提示）A
我们仅使用通过 Playground 提交到 2021 年 1 月部署的早期版本 InstructGPT 模型的提示。我们的人工注释者会先从所有提示中删除个人身份信息，然后再将其添加到训练集中。）

我们的标签人员提供所需模型行为的演示，并对我们模型的多个输出进行排名。然后我们使用这些数据来微调 GPT-3。

由此产生的 InstructGPT 模型在遵循指令方面比 GPT-3 好得多。他们编造事实的频率也较低，并且有毒物质的产生也略有减少。尽管参数少了 100 倍以上，但与 175B GPT-3 模型的输出相比，我们的贴标机更喜欢 1.3B InstructGPT 模型的输出。同时，我们表明，我们不必在 GPT-3 的功能上妥协，正如我们的模型在学术 NLP 评估中的表现所衡量的那样。

这些 InstructGPT 模型已经在 API 上进行测试一年多了，现在是我们 API 上可访问的默认语言模型。
（API 中部署的 InstructGPT 模型是使用相同的人类反馈数据训练的更新版本。他们使用类似但略有不同的训练方法，我们将在即将出版的出版物中描述该方法。）

我们相信，在人类参与的情况下微调语言模型是提高其安全性和可靠性的强大工具，我们将继续朝这个方向努力。

这是我们多年来一直追求的对准研究1,2,3 首次应用于我们的产品。我们的工作还与最近的研究相关，该研究使用学术 NLP 数据集（特别是 FLAN4 和 T0.5）微调语言模型以遵循指令。我们工作的一个关键动机是增加帮助性和真实性，同时减轻语言模型的危害和偏见。 6,7,8,9,10 我们之前在这个方向上的一些研究发现，我们可以通过对人类演示的小型精选数据集进行微调来减少有害输出。11 其他研究侧重于过滤预训练数据集， 12 个特定于安全的控制令牌，13,14 或转向模型生成。15,16 我们正在我们正在进行的一致性研究中探索这些想法和其他想法。

Result

我们首先通过让标签人员将其输出与 GPT-3 的输出进行比较来评估 InstructGPT 的输出遵循用户指令的情况。我们发现 InstructGPT 模型在提交给 API 上的 InstructGPT 和 GPT-3 模型的提示中明显受到青睐。当我们向 GPT-3 提示符添加前缀以使其进入“指令跟随模式”时，情况也是如此。
在这里插入图片描述

为了衡量模型的安全性，我们主要使用公开数据集上的一套现有指标。与 GPT-3 相比，InstructGPT 产生的模仿性错误更少（根据 TruthfulQA17），并且毒性更小（根据 RealToxicityPrompts18）。我们还对 API 提示分布进行了人工评估，发现 InstructGPT 编造事实（“幻觉”）的频率较低，并生成更合适的输出。

在这里插入图片描述
最后，我们发现 InstructGPT 输出在我们的客户分布中优于 FLAN4 和 T05 的输出。这表明用于训练 FLAN 和 T0 的数据（主要是学术 NLP 任务）并不能完全代表部署的语言模型在实践中的使用方式。

Methods

在这里插入图片描述

为了训练 InstructGPT 模型，我们的核心技术是根据人类反馈进行强化学习 (RLHF)，这是我们在早期对齐研究中帮助开创的一种方法。这项技术使用人类偏好作为奖励信号来微调我们的模型，这很重要，因为我们要解决的安全和对齐问题是复杂且主观的，并且不能通过简单的自动指标完全捕获。

我们首先收集提交给 API 的提示的人工编写演示数据集，并用它来训练我们的监督学习基线。接下来，我们在一组更大的 API 提示上收集两个模型输出之间人工标记比较的数据集。然后，我们在此数据集上训练奖励模型 (RM)，以预测贴标者更喜欢哪个输出。最后，我们使用这个 RM 作为奖励函数，并使用 PPO 算法微调我们的 GPT-3 策略以最大化该奖励。

思考这个过程的一种方式是，它“解锁”了 GPT-3 已经拥有的功能，但仅通过即时工程很难获得：这是因为我们的训练程序教授模型新功能的能力有限。是在预训练期间学习的，因为与模型预训练相比，它使用的计算和数据不到 2%。

这种方法的局限性在于它引入了“对齐税”：仅在客户任务上对齐模型可能会使模型在其他一些学术 NLP 任务上的表现更差。这是不可取的，因为如果我们的对齐技术使模型在人们关心的任务上变得更糟，那么它们在实践中被采用的可能性就较小。我们发现了一个简单的算法改变，可以最大限度地减少这种对齐负担：在 RL 微调期间，我们混合了一小部分用于训练 GPT-3 的原始数据，并使用正常对数似然最大化来训练这些数据。
[D]
我们发现这种方法比简单地增加 KL 系数更有效。

这大致保持了安全性和人类偏好方面的表现，同时减轻了学术任务方面的表现下降，在某些情况下甚至超过了 GPT-3 基线。

Generalizing to broader preferences

我们的程序使模型的行为与标签员的偏好保持一致，标签员直接生成用于训练模型的数据，而我们的研究人员则通过书面说明、对具体示例的直接反馈和非正式对话为贴标者提供指导。它还受到我们的客户和 API 策略中隐含的偏好的影响。我们选择了在筛选测试中表现良好的标签员，以识别和响应敏感提示的能力。然而，这些对数据影响的不同来源并不能保证我们的模型符合任何更广泛群体的偏好。

我们进行了两个实验来研究这一点。首先，我们使用保留的贴标机评估 GPT-3 和 InstructGPT
（[E]
这些贴标机来自 Scale AI 和 Upwork，与我们的培训贴标机类似，但没有经过筛选测试。）

他们没有生成任何训练数据，并发现这些标记器更喜欢 InstructGPT 模型的输出，其速度与我们的训练标记器大致相同。其次，我们根据来自贴标者子集的数据训练奖励模型，并发现它们可以很好地概括为预测不同贴标者子集的偏好。这表明我们的模型不仅仅过度适合我们的训练贴标签者的偏好。然而，还需要做更多的工作来研究这些模型如何在更广泛的用户群体中执行，以及它们如何在人们对期望行为存在分歧的情况下执行。

Limitations

尽管取得了重大进展，但我们的 InstructGPT 模型还远未完全一致或完全安全；他们仍然会在没有明确提示的情况下产生有毒或有偏见的输出、编造事实并产生性和暴力内容。但机器学习系统的安全性不仅取决于底层模型的行为，还取决于这些模型的部署方式。为了支持 API 的安全，我们将继续在潜在的应用程序上线之前对其进行审查，提供内容过滤器来检测不安全的完成情况，并监控滥用情况。

训练我们的模型遵循用户指令的副产品是，如果被指示产生不安全的输出，它们可能会更容易被误用。解决这个问题需要我们的模型拒绝某些指令；可靠地做到这一点是我们很高兴能够解决的一个重要的开放研究问题。

此外，在许多情况下，与平均贴标者偏好保持一致可能并不理想。例如，当生成不成比例地影响少数群体的文本时，应该更重视该群体的偏好。目前，InstructGPT 已经接受了遵循英语指令的培训；因此，它偏向于英语国家的文化价值观。我们正在进行研究，以了解贴标者偏好之间的差异和分歧，以便我们可以根据更特定人群的价值观来调整我们的模型。更一般地说，将模型输出与特定人类的价值观保持一致会带来具有社会影响的困难选择，最终我们必须建立负责任的、包容性的流程来做出这些决策。

Next steps

这是我们的对齐研究首次应用于我们的产品。我们的结果表明，这些技术可以有效地显着提高通用人工智能系统与人类意图的一致性。然而，这仅仅是开始：我们将继续推动这些技术，以改善我们当前和未来模型对人类安全且有帮助的语言工具的一致性。

sin(38.1727063)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Aligning language models to follow instructions（调整语言模型以遵循指令）

OpenAI API 由 GPT-3 语言模型提供支持，可以使用精心设计的文本提示来引导该模型执行自然语言任务。但这些模型也可能产生不真实、有毒或反映有害情绪的输出。这部分是因为 GPT-3 被训练来预测大型互联网文本数据集上的下一个单词，而不是安全地执行用户想要的语言任务。换句话说，这些模型与其用户不一致。为了使我们的模型更安全、更有帮助、更一致，我们使用了一种称为基于人类反馈的强化学习 (RLHF) 的现有技术。根据我们的客户向 API 提交的提示）A。
复制链接

扫一扫