论文翻译 | WebGPT: Browser-assisted question-answering withhuman feedback WebGPT：使用人工反馈进行浏览器辅助问答

本文链接：https://blog.csdn.net/m0_49651195/article/details/139946202

摘要

我们使用基于文本的网络浏览环境对GPT-3进行微调，以回答长格式问题，该环境允许模型搜索和导航网络。

通过将任务设置为可以由人类执行，我们能够使用模仿学习来训练任务模型，然后使用人类反馈来优化答案质量。为了使人类更容易评估事实的准确性，模型必须在浏览时收集参考资料以支持其答案。我们在ELI5上训练和评估我们的模型，ELI5是Reddit用户提出的问题的数据集。我们的最佳模型是通过使用行为克隆对GPT-3进行微调，然后对训练用于预测人类偏好的奖励模型进行拒绝采样来获得的。这个模型的答案在56%的时候比我们的人类试验者更受人类青睐，在69%的时候比Reddit投票最高的答案更受欢迎。

1 引言

NLP中一个越来越大的挑战是长形式问答（LFQA），其中生成一个段落长度的答案来回答一个开放式问题。LFQA系统有可能成为人们了解世界的主要方式之一，但目前落后于人类表现[Krishna等人，2021]。现有的工作往往侧重于任务的两个核心组成部分，即信息检索和合成。

在这项工作中，我们利用这些组件的现有解决方案：我们将文档检索外包给Microsoft Bing Web Search API，并利用无监督的预训练，通过微调GPT-3实现高质量合成[Brown等人，2020]。我们没有试图改进这些成分，而是专注于使用更忠实的训练目标将它们结合起来。继Stiennon等人【2020】之后，我们使用人类反馈来直接优化答案质量，使我们能够实现与人类竞争的绩效。

我们做出了两个关键贡献：

我们创建了一个基于文本的网络浏览环境，经过微调的语言模型可以与之交互。这使我们能够使用模仿学习和强化学习等通用方法，以端到端的方式改进检索和合成。
我们用参考文献生成答案：模型在浏览时从网页中提取的段落。这对于让标注者判断答案的事实准确性至关重要，而无需进行艰难而主观的独立研究。

我们的模型主要是为了回答ELI5[Fan et al，2019]中的问题而训练的，这是一个来自“像我五岁一样解释”子版块的问题数据集。我们收集了另外两种数据：人类使用我们的网络浏览环境回答问题的演示，以及同一问题的两个模型生成的答案之间的比较（每个答案都有自己的参考资料）。评判答案的标准是事实的准确性、连贯性和整体有用性。

我们以四种主要方式使用这些数据：使用演示的行为克隆（即监督微调），使用比较的奖励建模，针对奖励模型的强化学习，以及针对奖励模型进行拒绝采样。我们的最佳模型结合了行为克隆和拒绝采样。我们还发现，当推理时间计算更加有限时，强化学习可以提供一些好处。

我们用三种不同的方式来评估我们的最佳模型。首先，我们将模型的答案与人类试验者在一组问题上写的答案进行比较。我们模型的答案在56%的情况下是首选的，这表明了基于文本的浏览器在人类层面的使用。其次，我们将我们模型的答案（为了公平起见，去掉了参考文献）与ELI5数据集提供的投票率最高的答案进行比较。我们模型的答案在69%的情况下是首选的。第三，我们在TruthfulQA上评估了我们的模型[Lin et al，2021]，这是一个简短问题的对抗性数据集。我们的模型的答案在75%的时间里是正确的，在54%的时间里都是正确的和有信息的，优于我们的基本模型（GPT-3），但没有达到人类的表现。

本文的其余部分结构如下：

在第2节中，我们描述了基于文本的网络浏览环境以及我们的模型如何与之交互。
在第3节中，我们将更详细地解释我们的数据收集和训练方法。
在第4节中，我们评估了ELI5和TruthfulQA上性能最佳的模型（针对不同的推理时间计算预算）
在第5节中，我们提供了实验结果，比较了我们的不同方法，以及它们如何随着数据集大小、参数计数和推理时间计算而扩展。
在第6节中，我们讨论了我们的研究结果对训练模型真实回答问题的影响，以及更广泛的影响。

2 环境设计

先前关于问题回答的工作，如REALM[Guu等人，2020]和RAG[Lewis等人，2020a]，专注于改进给定查询的文档检索。相反，我们使用了一种熟悉的现有方法：现代搜索引擎（Bing）。这有两个主要优点。首先，现代搜索引擎已经非常强大，可以索引大量最新文档。

其次，它使我们能够专注于使用搜索引擎回答问题的更高级别任务，这是人类可以做得很好的，也是语言模型可以模仿的。

对于这种方法，我们设计了一个基于文本的web浏览环境。语言模型会提示环境的当前状态的书面摘要，包括问题、当前光标位置的当前页面的文本以及一些其他信息（见图1（b））。

对此，模型必须发出表1中给出的命令之一，该命令执行诸如运行Bing搜索、单击链接或滚动之类的操作。然后使用新的上下文重复此过程（因此，先前步骤的唯一记忆是摘要中记录的内容）。

当模型浏览时，它可以采取的操作之一是引用当前页面的摘录。执行此操作时，会记录页面标题、域名和摘录，以便以后用作参考。然后继续浏览，直到模型发出结束浏览的命令，达到操作的最大数量，或者达到引用的最大总长度。在这一点上，只要至少有一个参考，模型就会被提示问题和参考，并且必须组成其最终答案。

有关我们环境的更多技术细节，请参阅附录A。

图1：我们基于文本的网页浏览环境的观察结果，如人类演示者（左）和模型（右）所示。为了便于说明，对网页文本进行了删节。

表1：模型可以采取的行动。如果模型生成任何其他文本，则认为这是一个无效操作。无效操作仍然会计入最大值，但在其他情况下会被忽略。

3 方法

3.1 收集数据

人类的指导是我们方法的核心。在自然语言上预先训练的语言模型将无法使用我们基于文本的浏览器，因为它不知道有效命令的格式。

因此，我们收集了人类使用浏览器回答问题的例子，我们称之为演示。然而，仅凭演示训练并不能直接优化答案质量，也不太可能远远超出人类表现[Steennon等人，2020]。因此，我们收集了两对模型生成的同一问题的答案，并询问人类他们更喜欢哪一个，我们称之为比较。

对于演示和比较，绝大多数问题都来自ELI5[Fan et al，2019]，一个长形式问题的数据集。对于多样性和实验，我们还混合了来自其他来源的少量问题，如TriviaQA[Joshi等人，2017]。总共，我们收集了大约6000个演示，其中92%是针对ELI5的问题，以及大约21500个比较，其中98%是针对ELI5的问题。我们使用的问题的更详细分类以及后期处理细节可以在附录B中找到。

为了让人类更容易提供演示，我们为环境设计了一个图形用户界面（见图1（a））。这显示了与基于文本的界面基本相同的信息，并允许执行任何有效的操作，但更人性化。对于比较，我们设计了一个类似的界面，允许提供辅助注释和比较评级，尽管在训练中只使用了最终的比较评级（总体上更好、更差或同样好）。

对于演示和比较，我们强调答案应该是相关的、连贯的，并有可靠的参考资料支持。关于这些标准和我们数据收集管道的其他方面的更多详细信息，请参阅附录C。

我们正在发布一个比较数据集，其详细信息可在附录K中找到。

3.2 训练

使用预先训练好的模型对我们的方法至关重要。成功使用我们的环境回答问题所需的许多基本能力，如阅读理解和答案合成，都是语言模型的零样本能力[Brown et al，2020]。因此，我们对GPT-3型号家族的型号进行了微调，重点关注760M、13B和175B型号。

从这些模型开始，我们使用了四种主要的训练方法：

行为克隆（BC）。我们以人类试验者发出的命令为标签，通过监督学习对演示活动进行了微调。
奖励建模（RM）。从去除了最后一个未嵌入层的BC模型开始，我们训练一个模型接受一个带有参考的问题和一个答案，并输出标量奖励。根据Stiennon等人【2020】，奖励代表Elo分数，按比例缩放，使两个分数之间的差异代表人类标签制作者优先选择其中一个的概率logit。奖励模型使用交叉熵损失进行训练，并将比较作为标签。ties被视为柔软的50%标签。
强化学习（RL）。继Stiennon等人【2020】之后，我们再次使用PPO对环境中的BC模型进行了微调【Schulman等人，2017】。对于环境奖励，我们在每集结束时获取奖励模型得分，并将其添加到每个代币的BC模型的KL惩罚中，以减轻奖励模型的过度优化。
拒绝抽样（最佳抽样）。我们从BC模型或RL模型中抽取了固定数量的答案（4、16或64）（如果未指定，我们使用BC模型），并选择奖励模型排名最高的一个。我们将其作为针对奖励模型进行优化的替代方法，该方法不需要额外的训练，而是使用更多的推理时间计算。

我们分别对BC、RM和RL使用了互不相交的问题集。

对于BC，我们进行了大约4%的演示，用作验证集。

对于RM，我们以特别的方式对比较数据集的答案进行采样，使用各种大小的模型（但主要是175B模型大小），使用方法和超参数的各种组合进行训练，并将它们组合成单个数据集。这是为了提高数据效率：我们出于评估目的收集了许多比较，例如调整超参数，不想浪费这些数据。我们的最终奖励模型是根据大约16000个比较进行训练的，剩下的5500个仅用于评估。

对于RL，我们对来自ELI5的90%的问题和来自TriviaQA的10%的问题进行了混合训练。

为了提高样本效率，在每回合结束时，我们使用与前一回合相同的参考资料插入了15回合额外的仅回答的回合。我们之所以有动力尝试这一点，是因为尽管采取的步骤要少得多，但与浏览相比，回答对奖励模型得分变化的解释略多，我们发现它可以将样本效率提高约2倍。我们还对浏览动作的最大数量进行了随机化，从20到100（包括20到100）的范围内统一抽样。

我们所有训练方法的超参数可以在附录E中找到。

4 评估

在评估我们的方法时，我们重点研究了三个“WebGPT”模型，每个模型都通过行为克隆进行训练，然后针对相同大小的奖励模型进行拒绝采样：760M best-of-4 model、13B best-of-16和175B best-of-64。如第5.2节所述，这些是与不同推理时间计算预算相对应的计算效率模型。为了简单起见，我们排除了RL，因为当与拒绝采样相结合时，它没有提供显著的好处（见图4）。

我们使用0.8的采样温度对所有WebGPT模型进行了评估，该温度使用人工评估进行了调整，浏览操作的最大数量为100。

4.1 ELI5

我们在ELI5测试集上以两种不同的方式评估了WebGPT:

我们将模型生成的答案与演示者使用我们的网络浏览环境编写的答案进行了比较。对于这些比较，我们使用了与用于奖励模型训练的比较相同的程序。我们认为这是一个公平的比较，因为演示和比较说明强调了一套非常相似的标准。
我们将模型生成的答案与ELI5数据集的参考答案进行了比较，这是Reddit投票率最高的答案。在这种情况下，我们担心生态有效性，因为我们详细的比较标准可能与现实生活中的用户不匹配。我们还担心盲目性，因为Reddit的回答通常不包括引用。为了缓解这些担忧，我们从模型生成的答案中删除了所有引用和参考文献，雇佣了不熟悉我们详细说明的新承包商，并向他们提供了一套更为简单的说明，如附录F所示。

在这两种情况下，我们都将关系视为50%的偏好评级（而不是排除它们）。

我们的结果如图2所示。我们的最佳模型，175B best-of-64模型，在56%的时间里产生的答案比人类演示者写的答案更受欢迎。这表明，人类反馈的使用是至关重要的，因为人们不会期望通过单独模仿演示来超过50%的偏好（尽管通过制定一个噪音较小的政策，这仍然是可能的）。

图2：人类对ELI5的评估与（a）使用我们的网络浏览器收集的演示进行比较，（b）每个问题的最高投票答案。拒绝采样的数量（n中的n）被选择为计算有效（见图8）。误差条表示±1个标准误差。

相同的模型在69%的时间内产生的答案优于ELI5数据集的参考答案。与Krishna等人【2021】相比，这是一个实质性的改进，Krishna et al【2021】的最佳模型的答案在23%的时间内优先于参考答案，尽管它们使用的计算量甚至比我们最小的模型少得多。

尽管针对ELI5参考答案的评估有助于与之前的工作进行比较，但我们认为针对人类演示的评估更有意义，原因如下：

事实核查。如果没有参考资料，很难评估答案的事实准确性：即使有搜索引擎的帮助，也往往需要专业知识。然而，WebGPT和人类演示者提供了有参考的答案。
客观性。使用最少的指令使人们更难知道选择一个答案而不是另一个答案的标准是什么。我们更详细的说明使比较更具可解释性和一致性。
致盲。即使去掉引用和参考文献，WebGPT也会编写与Reddit答案风格不同的答案，从而减少比较的盲目性。相比之下，WebGPT和人类演示者以相似的风格编写答案。此外，一些ELI5答案包含链接，我们指示贴标者不要遵循这些链接，这可能会使贴标者对这些答案产生偏见。
回答意图。人们在ELI5上提问是为了获得原始的、简化的解释，而不是已经在网上找到的答案，但这些并不是我们想要评判答案的标准。此外，许多ELI5问题只得到了少量的低难度答案。通过人工演示，可以更容易地确保始终如一地使用所需的意图和努力水平。

4.2 TruthfulQA

为了进一步探索WebGPT的能力，我们在TruthfulQA上评估了WebGPT[Lin et al，2021]，这是一个由简短问题组成的对抗性构建的数据集。真实的QA问题是精心设计的，因此一些人会因为错误的信念或误解而错误地回答这些问题。答案根据真实性和信息性进行评分，这两者相互抵消（例如，“我无可奉告”被认为是真实的，但不是信息性的）。

我们在TruthfulQA上评估了WebGPT使用的基本GPT-3模型和WebGPT模型本身。对于GPT-3，我们使用了Lin等人[2021]的“QA提示”和“有用提示”，并使用了自动度量，因为这密切跟踪了人类对GPT-3模型族产生的答案的评估。对于WebGPT，我们使用了人工评估，因为WebGPT的答案超出了自动度量的分布范围。TruthfulQA是一个简短的数据集，因此我们还将WebGPT的答案截断为50个标记，然后删除任何尾随的偏句。

我们的结果如图3所示。所有WebGPT模型在真实答案的百分比以及真实和信息性答案的百分比方面都优于所有GPT-3模型（同时使用两种提示）。此外，真实和信息性答案的百分比随着WebGPT的模型大小而增加，这与任何一个提示的GPT-3不同。第6.1节对WebGPT在TruthfulQA上的性能进行了进一步的定性分析。

图3：真实的QA结果。拒绝采样的数量（n中的n）被选择为计算有效（见图8）。误差条表示±1个标准误差。

4.3 TriviaQA

我们还在TriviaQA上评估了WebGPT 175B BC模型[Joshi等人，2017]。这些结果见附录G。

5 实验

5.1 训练方法比较

我们进行了一些额外的实验，将强化学习（RL）和拒绝抽样（最佳抽样）相互比较，并与行为克隆（BC）基线进行比较。我们的结果如图4和图5所示。拒绝采样提供了实质性的好处，175B最佳64 BC模型在68%的时间内比175B BC模型更受欢迎。同时，RL提供了较小的好处，175B RL模型在58%的时间内比175B BC模型更受欢迎。

图4：RL模型相对于BC模型的偏好，有（右）和没有（左）使用拒绝抽样。RL略微提高了偏好，但仅当不使用拒绝采样时。误差条表示±1个标准误差。

图5:175B最佳BC模型相对于BC模型的偏好。验证RM预测是使用附录I中描述的估计器获得的，并在这种情况下很好地预测了人类偏好。阴影区域表示±1标准误差。

尽管拒绝采样和RL都针对相同的奖励模型进行了优化，但拒绝采样优于RL的原因有几个：

简单地利用更多的推理时间计算，进行多次回答尝试可能会有所帮助。
环境是不可预测的：通过拒绝抽样，该模型可以尝试访问更多的网站，然后事后评估它发现的信息。
奖励模型主要基于从BC和拒绝采样策略收集的数据进行训练，这可能使其比RL更能抵御拒绝采样的过度优化。
RL需要超参数调整，而拒绝采样则不需要。

RL和拒绝采样的组合也不能提供比单独拒绝采样更多的好处。其中一个可能的原因是RL和拒绝采样是针对相同的奖励模型进行优化的，这很容易被过度优化（尤其是RL，如上所述）。除此之外，RL还降低了策略的熵，这损害了探索。调整RL目标以优化拒绝采样性能是未来研究的一个有趣方向。

同样值得强调的是，仔细调整BC基线以进行这些比较的重要性。

如附录E中所述，我们使用人类评估和奖励模型得分的组合来调整BC时期的数量和采样温度。仅此一点就弥补了我们最初看到的BC和RL之间的大部分差距。

5.2 缩放实验

我们还进行了实验，以研究模型性能如何随着数据集的大小、模型参数的数量和用于拒绝采样的样本数量而变化。

由于人类评估可能是嘈杂和昂贵的，我们在这些实验中使用了175B“验证”奖励模型（在单独的数据集分割上训练）的分数。我们发现，当不针对使用RL的奖励模型进行优化时，这是人类偏好的一个很好的预测指标（见图5）。回想一下，奖励代表Elo分数，相差1分代表S型（1）≈73%的偏好。

图6和图7显示了数据集大小和参数计数的缩放趋势。对于数据集大小，将演示次数增加一倍可使政策的奖励模型得分提高约0.13，将比较次数增加一番可使奖励模型的准确性提高约1.8%。

图6:BC缩放，改变演示数据集的比例和策略的参数计数

图7:RM缩放，改变比较数据集的比例和奖励模型的参数计数。

对于参数计数，趋势更嘈杂，但将策略中的参数数量增加一倍会使其奖励模型得分增加约0.09，将奖励模型中的参数数目增加一倍则会使其准确性增加约0.4%。

对于拒绝采样，我们分析了在给定的推理时间计算预算下，如何权衡样本数量与模型参数数量（见图8）。我们发现它是通常计算效率高，可以使用一定数量的拒绝采样，但不要太多。我们主要评估的模型来自这种权衡的Pareto前沿：760M best-of-4 model、13B best-of-16 model和175B best-of-64 model。

图8：最佳n缩放，一起改变策略和奖励模型的参数计数，以及采样的答案数量。

6 讨论

6.1 WebGPT的真实性

随着NLP系统的改进和更广泛的部署，开发减少虚假陈述数量的技术变得越来越重要[Evans等人，2021]。为了评估WebGPT对这一目标的贡献，区分模型做出的两类虚假陈述是有帮助的：

模仿谎言。这些都是错误的陈述，受到训练目标的激励（即使在无限数据和计算的限制下），例如再现常见的误解[Lin等人，2021]。
非模仿性谎言。这些都是错误的陈述，是模型未能实现其训练目标的结果，包括大多数幻觉，这些陈述是错误的，但乍一看似乎是合理的[Maynez等人，2020]。

我们的TruthfulQA结果表明，WebGPT产生的模仿虚假信息比GPT-3少。我们认为这是因为WebGPT被激励更喜欢可靠的来源（既因为Bing API执行的过滤，也因为我们在说明中指定了这一点）。然而，如表3所示，WebGPT在回答TruthfulQA问题时，有时仍会引用高度不可靠的来源。我们假设这是因为从ELI5到TruthfulQA的分布转变，而针对对抗性选择问题的培训是一种很有希望的改进方法。在这样的努力中，密切关注标签商对来源可信度的判断是很重要的（见附录C）。

我们在ELI5上的结果表明，WebGPT也比GPT3产生更少的非模仿性虚假信息。我们没有直接检验这一假设，因为我们发现贴标者很难发现细微的幻觉。然而，先前的工作表明，检索的使用降低了幻觉的发生率[Shuster等人，2021]，此外，WebGPT在ELI5上的事实准确性表现与人类差不多（见图2（a））。尽管如此，WebGPT有时仍会产生非模仿性的虚假信息，这些虚假信息通常是在试图解释或合成信息时出错，而不是疯狂的幻觉。

表3：TruthfulQA的两个问题，精心挑选，以突出WebGPT的成功和失败。虽然GPT-3 175B以有用的提示回答了49%的问题“我无可奉告”，但WebGPT几乎总是试图回答这个问题，但有时会引用不可靠的来源。尽管如此，WebGPT的总体回答仍然更真实（见图3）。关键字：红色的×=错误，黑色的✔=正确但无信息，绿色的✔=真实且有信息

6.2 WebGPT的感知真实性

为了评估WebGPT的好处和风险，不仅需要考虑其虚假陈述的频率，还需要考虑用户依赖这些陈述的可能性。尽管WebGPT的虚假陈述频率低于GPT-3，但其答案也显得更具权威性，部分原因是使用了引文。结合“自动化偏见”这一有据可查的问题【Goddard等人，2012年】，这可能导致过度依赖WebGPT的答案。这尤其有问题，因为如第6.1节所述，WebGPT在分发外问题上可能比人类犯更多的错误。这些限制的文档可以帮助那些与WebGPT交互的人了解情况，还需要进一步的研究来了解如何减轻这种情况。

6.3 偏压的加强

WebGPT倾向于以多种方式延续和强化现有的假设和偏见。首先，WebGPT继承了对其进行微调的基础模型GPT-3[Brown等人，2020]的偏差，这影响了它选择搜索和合成信息的方式。搜索和合成都取决于根据材料价值的某些衡量标准包括和排除材料的能力，并且通过在做出这些决定时结合GPT-3的偏见，WebGPT可以进一步延续这些偏见。其次，WebGPT综合了现有来源的信息，这一事实使其有可能加强和巩固现有的信念和规范。最后，WebGPT通常接受问题所做的隐含假设，并且更普遍地似乎受到问题所采取的立场的影响。这可能会加剧用户的确认偏见。

这些问题可以通过对WebGPT的基本模型和WebGPT训练目标的改进来缓解，我们将在下一节中讨论一些替代目标。通过限制访问和调整应用程序的设计和文档，控制WebGPT的使用方式也可能很重要。

附录H中给出了问题立场和参考点偏差影响的附加分析.

6.4 使用参考资料评估事实准确性

我们方法的核心是使用模型收集的参考文献来帮助人类评估事实的准确性。这是Metzler等人[2021]之前提出的，有几个好处：

更准确的反馈。评估任意索赔的事实准确性是非常具有挑战性的，这些索赔可能是技术性的、主观的或模糊的。相比之下，评估一组来源对索赔的支持程度要容易得多。
噪音较小的反馈。与评估任意索赔的事实准确性相比，指定一个明确的程序来评估一组来源对索赔的支持程度也更容易。这提高了贴标机之间的协议率，有助于提高数据效率.
透明度。与GPT-3相比，理解WebGPT如何编写答案要容易得多，因为可以检查整个浏览过程。最终用户也可以直接跟进来源，更好地判断事实的准确性。

尽管有这些好处，但参考文献远不是灵丹妙药。我们目前的程序鼓励模型挑选他们希望标签制作者感到有说服力的参考文献，即使这些参考文献不能反映对证据的公平评估。如第6.3节所述，有早期迹象表明这种情况正在发生，WebGPT接受了问题的隐含假设，而且更有能力的模型和更具挑战性或主观性的问题可能会加剧问题。我们可以使用辩论等方法来缓解这种情况【Irving等人，2018】，在辩论中，模型被训练来寻找支持和反对不同主张的证据。这种设置也可以被视为递归奖励建模的简单案例[Leike等人，2018]和迭代放大[Christiano等人，2018]，其中模型有助于自己的评估。

我们的方法还提出了一个具有社会意义的挑战性问题：在训练人工智能系统时，应如何评估事实准确性？Evans等人[2021，第2节]提出了一些需求，但这些需求与以合理的数据效率训练当前人工智能系统所需的高度具体的标准之间仍存在很大差距。我们做出了一些艰难的判断，例如如何对来源的可信度进行评级（见附录C），我们预计不会普遍同意。虽然WebGPT似乎没有太多的细微差别，但我们预计，随着人工智能系统的改进，这些决定将变得越来越重要，并认为需要跨学科研究来制定既实用又合理的认知标准。

6.5 实时网络访问的风险

在训练和推理时，WebGPT都可以通过我们基于文本的浏览环境实时访问网络。这使得该模型能够为广泛的问题提供最新的答案，但可能会给用户和其他人带来风险。例如，如果模型可以访问表单，它可以编辑维基百科来构建一个看起来可靠的参考。即使人类示威者没有做出这样的行为，如果模型偶然发现RL，它也可能会得到加强。

我们认为WebGPT利用其行为在现实世界中的副作用所带来的风险非常低。

这是因为环境允许的与外部世界的唯一交互是向Bing API发送查询，并跟踪网络上已经存在的链接，因此编辑维基百科等操作不能直接用于模型。虽然一个足够强大的系统可以提升这些特权[Harms，2016]，但WebGPT的能力似乎远低于实现这一目标所需的能力。

然而，能力更强的模型可能会带来更严重的风险[Bostrom，2014]。出于这个原因，我们认为，随着模型能力的提高，即使在训练时间，也应该为他们提供访问网络的安全性证明。作为其中的一部分，可以使用诸如绊网测试之类的措施来帮助尽早捕捉开发模型行为。

7 相关工作

在2010年代末，预先训练的语言模型兴起之前，将机器学习与外部知识库相结合，用于回答问题。这类系统中一个值得注意的是DeepQA（也称为IBM Watson），它被用来在《危险边缘》中击败最优秀的人类[Ferrucci et al., 2010]。

大量较新的工作使用语言模型在检索到的文档的帮助下回答问题；这些系统比DeepQA更通用，在概念上也更简单。一种方法是使用内部产品搜索来检索相关文档，然后在给定这些文档的情况下生成答案：

给定为每个问题指定相关段落的训练数据集，密集段落检索（DPR）使用对比目标直接训练检索者[Carpukhin等人，2020]。检索增强语言建模（REALM）[Guu等人，2020]和检索增强生成（RAG）[Lewis等人，2020a]使用语言建模目标端到端地训练检索器和问答组件。与专注于简短答案的基准测试的DPR、RAG和REALM不同，Krishna等人[2021]使用类似的系统来处理ELI5数据集上的长形式问答[Fan等人，2019]。他们发现，像ROUGE-L这样的自动化指标没有意义，这促使我们选择使用人工比较作为主要指标。请注意，上述方法家族依赖于内积搜索（等式1），与WebGPT的不同之处在于，它们将检索公式化为可微分过程。完全可微检索具有快速优化的优点；两个缺点是它不能像使用搜索引擎那样处理非差分过程，而且它的可解释性较差。

与WebGPT一样，最近的一些工作将文档检索或网页浏览定义为强化学习（RL）问题。袁等人【2019】将RL应用于阅读理解基准，其中（如WebGPT中）动作空间包括搜索和滚动所提供的源文档。

他们建议将网络级QA（如WebGPT）作为未来工作的方向。Adolphs等人[2021]提出了一个RL问题，该问题涉及执行一系列简短问答的搜索查询。

他们以两种替代方式训练系统：在合成序列上的行为克隆（BC）和RL。最后，还有另一项工作使用BC和RL来控制网络浏览器，用于自动化除问答之外的其他任务[Shi等人，2017，Gur等人，2018]。