OpenAI最新博文：人工智能系统的行为塑造与决策权归属

人工智能系统的行为塑造与决策权归属

2月16日，OpenAI 博客发布最新文章"How should AI systems behave, and who should decide?"。文中OpenAI首次澄清了ChatGPT的行为是如何塑造的，以及进一步的改进计划。并且宣布未来会允许更多的用户定制，并在更多领域的决策中获得更多的公众投入。本文是对这篇博客的翻译，希望大家喜欢。
$\ast\ast\ast$

文章目录

OpenAI的使命是确保通用人工智能（AGI）¹ 造福全人类。因此，我们对 AGI 早期阶段构建的 AI 系统的行为以及决定这种行为的方式进行了大量思考。

自我们推出 ChatGPT 以来，用户反馈了他们认为具有政治偏见、冒犯性或其他令人反感的输出。在许多情况下，我们认为提出的担忧是有道理的，并且揭示了系统的真实局限性，而这也是我们一直想要解决的。我们还看到了一些关于我们的系统和政策塑造 ChatGPT 输出的误解。

总结起来有如下几点：

ChatGPT的行为是如何塑造的；
我们计划如何改进ChatGPT的默认行为；
我们希望加入更多系统定制；
我们努力让更多公众参与我们的决策。

认清当下

与普通软件不同，我们的模型是一个巨大的神经网络。他们的行为是从广泛的数据中习得的，而不是明确编程的。打个不恰当的比方，这个过程更像是在训练一只狗，而不是普通的编程。首先是初始的“预训练”阶段，在该阶段模型学习预测句子中的下一个单词，并通过接触大量的互联网文本（以及大量的视角）获得信息。接下来是第二阶段，我们“微调”模型以缩小系统行为范围。

到今天为止，这个过程还不完善。有时微调过程达不到我们的意图（生成安全有用的工具）和用户的意图（对给定输入获得有用的输出）。随着AI系统变得日益强大，改进我们的AI系统使其与人类价值观保持一致是我们公司的首要任务。

两步过程：预训练和微调

构建 ChatGPT 的两个主要步骤如下：

在这里插入图片描述

首先，我们对模型进行 “预训练”，让它们预测在包含部分互联网数据的大数据集中下一步会发生什么。它们可能会学习补全句子，比如“instead of turning left, she turned ___.”。通过从数十亿个句子中学习，我们的模型习得了语法、关于世界的许多事实以及一些推理能力。他们还了解了数十亿个句子中存在的某些偏见。
然后，我们在更窄的数据集上“微调”这些模型，这些数据集由遵循我们提供的指导原则的人类审核员仔细生成。由于我们无法预测未来用户可能输入系统的所有内容，因此我们不会为ChatGPT可能遇到的每个输入编写详细说明。相反，我们在指引中概述了一些类别，让审核员使用这些类别来评审和评价一系列示例输入的可能模型输出。然后，在使用过程中，模型会根据评审员的反馈进行概括，以响应给定用户提供的各种特定输入。

审核员和 OpenAI 政策在系统开发中的作用

某些情况下，我们可能会就某种输出向我们的审核员提供指引（例如，“不要完成对非法内容的请求”）。大多数情况下我们给到审核员的指引指层次更高（例如，“避免对有争议的话题表达立场”）。重要的是，我们与审稿人的合作不是一劳永逸的——这是一种持续的关系，我们从他们的专业知识中学到很多。

微调过程的很大一部分是与审核员保持强有力的反馈循环，这包括每周召开会议来解决他们可能遇到的问题，或对我们的指引进行详细说明。这个迭代反馈过程使得我们训练的模型随着时间的推移变得越来越好。

解决偏见

许多人对人工智能系统的设计和影响存在偏见感到担忧，这是正确的。我们坚定地致力于解决这一问题，并对我们的意图和进展保持透明。为此，我们分享了与政治和有争议话题相关的部分指南。我们的指南明确指出审核员不应偏袒任何政治团体。尽管如此，上述过程中可能出现的偏差都是错误（bugs），不是功能（features）。

尽管分歧始终存在，但我们希望分享这篇博文和指南能让我们更深入地了解我们如何看待这一基础技术的关键方面。我们坚信科技公司必须负责制定经得起审查的政策。

我们一直在努力提高这些指南的清晰度——根据我们从ChatGPT发布至今所学到的知识，我们将向审核员提供更清晰的指引，说明与偏见相关的潜在陷阱和挑战，以及有争议的人物和主题。此外，作为正在进行的透明计划的一部分，我们正在努力以不违反隐私规则和规范的方式共享有关审核员的汇总人口统计信息，因为这是系统输出中潜在偏见的另一个来源。

我们目前正在研究如何让微调过程更易于理解和控制，外部的进步，例如基于规则的奖励和Constitutional AI等，给了我们更上一层楼的基础。

遥看未来：未来系统的构建板块

为了达成我们的使命，我们致力于确保人工智能和通用人工智能能够得到广泛使用、并从中获得广泛的收益和影响力。我们认为，在人工智能系统行为的背景下，要实现这些目标，至少需要三个板块。²

改进默认行为。 我们希望尽可能多的用户发现我们提供的“开箱即用”式的 AI 系统对他们有用，并认为我们的技术理解并尊重他们的价值观。

为此，我们正在投资于研究和工程，以减少 ChatGPT 对不同输入的响应中明显和微妙的偏差。某些情况下，ChatGPT 目前会拒绝它本不应该拒绝的输出，而另一些某些情况下，它不会拒绝应该拒绝的输出。我们相信，在这两个方面都有改善的空间。

此外，我们在系统行为的其他方面也有改进的空间，例如系统会“一本正经胡说八道”。用户的反馈对于做出这些改进非常宝贵。
在广泛的范围内定义 AI 的价值观。 我们认为人工智能应该成为对个人有用的工具，因此每个用户都可以根据社会定义的限制进行定制。

这意味着要允许其他人（包括我们自己）可能强烈反对的系统输出。这里如何取得正确的平衡是一项挑战——将定制发挥到极致可能会导致恶意使用我们的技术和阿谀奉承的人工智能，从而无意识地放大人们现有的信念。

因此，系统行为总会有一定边界。挑战在于如何定义这些边界。如果我们试图自己做出所有这些决定，或者如果我们试图开发一个单一的、整体的人工智能系统，我们将无法履行我们在宪章中做出的“避免权力过度集中”的承诺。
默认行为和边界上的公众意见输入。 避免权力过度集中的一种方法是让使用 ChatGPT 等系统或受其影响的人能够影响这些系统的规则。

我们认为，默认行为和边界的许多决策应该集体做出，显然在实际实施中这是一项挑战，但我们的目标是尽可能多地纳入观点。作为起点，我们以红队的形式寻求外部对我们技术的输入。我们最近还开始征求公众对人工智能教育的意见（我们的技术正在部署的一个特别重要的环境）。

我们正处于试点工作的早期阶段，以征求公众对系统行为、披露机制（如水印）和更广泛的部署政策等主题的意见。我们还在探索与外部组织合作，以对我们的安全和政策工作进行第三方审计。