人工智能的相关测评——如何保证语言模型是准确的?

作者：Rishi Bommasani、Percy Liang和Tony Lee

我们在广泛的场景和广泛的指标中对30个突出的语言模型进行基准测试，以阐明其能力和风险。

语言在我们如何沟通、我们如何学习和教学、我们如何组织和采取政治行动以及我们如何传达生活中的情感和复杂性方面发挥着核心作用。语言模型的力量来自大量的语言数据。它们体现了向基础模型的更广泛的范式转变，机器学习模型可以适应令人印象深刻的广泛任务。谷歌、微软和OpenAI等组织花费了非凡的资金来构建这些模型（有时单个模型需要数百万美元），然后为影响数十亿人的产品提供动力。这些模型是谷歌搜索等既定产品、GitHub CoPilot等新体验以及Adept、Character和Inflection等下一代初创企业的新兴生态系统的核心。这些模型已经被用来共同撰写《经济主义》文章和获奖文章，共同创作剧本，并在美国共同构建证词。参议院。与此同时，人们广泛讨论了它们的风险：它们可能是有毒的、不诚实的、用于传播虚假信息的，围绕其数据和部署的做法需要认真的法律和道德反思。

围绕着语言模型的所有兴奋和恐惧，我们必须被衡量。我们需要知道这项技术可以做什么和不能做什么，它带来了什么风险，这样我们才能有更深入的科学理解，并更全面地了解其社会影响。透明度是实现这两个目标的重要第一步。

但人工智能社区缺乏所需的透明度：存在许多语言模型，但它们没有按照统一的标准进行比较，即使对语言模型进行评估，也没有以统一的方式解决所有社会考虑因素（例如公平性、稳健性、不确定性估计、常识性知识、生成虚假信息的能力）。

在基础模型研究中心，我们开发了一种新的基准方法，语言模型整体评估（HELM），旨在提供急需的透明度。我们打算通过与更广泛的社区合作，将HELM作为语言模型世界的地图，并随着时间的推移不断更新。

整体评估

我们强调在评估语言模型时要全面，但从整体上衡量语言模型意味着什么？与之前的人工智能系统不同，语言模型是通用文本界面，可以应用于从问题回答到总结再到毒性检测的广泛场景。对于每个用例，我们都有一套广泛的设计：模型应该是准确、稳健、公平、高效等。

我们认为整体评估涉及三个要素：

广泛覆盖和承认不完整性。鉴于语言模型的强大功能和风险，我们需要在广泛的场景中评估语言模型。然而，不可能考虑所有场景，因此整体评估应该明确所有缺失的主要场景和指标。

多指标测量。社会有益的系统具有许多desiderata的特点，但人工智能中的基准测试通常以一个（通常是准确性）为中心。整体评估应该代表这些复数desiderata。

标准化。我们的评估对象是语言模型，而不是特定于场景的系统。因此，为了有意义地比较不同的LM，应该控制使LM适应场景的策略。此外，我们应该尽可能评估相同场景中的所有主要LM。

总体而言，整体评估通过整体评估语言模型来建立透明度。我们努力更全面地描述语言模型，以提高科学理解和指导社会影响。

1.广泛覆盖和承认不完整性

为了应对语言模型的巨大能力表面，我们首先对场景空间_（可以应用LM）和指标（我们希望他们做什么）进行分类。场景包括任务、域（由文本的类型、谁写的以及编写时间组成）和语言组成。然后，我们根据社会相关性（例如面向用户的应用程序）、覆盖范围（例如，不同的英语方言/变体）和可行性（即我们的计算有限）对场景和指标的子集进行优先排序。与列举一组场景和指标的之前的基准（例如SuperGLUE、EleutherAI LM Harness、BIG-Bench）不同，将我们选择的场景放在更大的分类法中明确了目前缺少的内容。我们在第一个版本的HELM中错过的例子包括：英语以外的语言，超越传统NLP任务（如文案）的应用程序，以及捕获人类-LM交互的指标。

2.多指标测量

大多数现有基准考虑具有单一主指标（通常准确度）的场景，将其他desiderata（例如毒性）的评估降级为单独的场景（例如RealToxicityPrompts）。我们认为，在我们希望部署模型的相同背景下评估所有这些desiderata是不可或缺的。对于我们的16个核心场景中的每个场景，我们都会测量7个指标（准确性、校准、稳健性、公平性、偏差、毒性和效率）。多指标方法明确了潜在的权衡，并有助于确保不准确的desiderata不被视为二等公民。

此外，我们进行有针对性的评估：26个细粒度的场景，隔离特定技能（例如推理、常识知识）和风险（例如虚假信息、记忆/版权）。这包括21个场景，这些场景要么是这项工作中全新的（例如WikiFact），要么没有用于主流语言模型评估（例如，国际英语语料库）。

3.标准

随着语言模型成为语言技术的基材，缺乏评估标准会损害社区看到语言模型完整景观的能力。

例如，在撰写本文时，在所有主要语言建模工作中评估的405个数据集中，模型对这些数据集的评估程度参差不齐。不同的模型通常在不同的场景中进行评估：谷歌的T5（11B）和Anthropic的Anthropic-LM（52B）等模型没有在原始作品中共同的单个数据集中进行评估。一些型号（例如，AI21实验室的J1 Grande（17B）、Cohere的Cohere-XL（52B）、Yandex的YalM（100B））基本上不报告公共结果（据我们所知）。\

为了纠正这一现状，我们评估了来自12家提供商的30个模型：AI21 Labs、Anthropic、BigScience、Cohere、EleutherAI、Google、Meta、Microsoft、NVIDIA、OpenAI、清华大学和Yandex。这些模型在公共访问方面有所不同：一些是开放的（例如，BigScience的BLOOM（176B）），另一些是通过API有限访问的（例如，OpenAI的GPT-3（175B）），还有一些是封闭的（例如，微软/NVIDIA的TNLGv2（530B））。对于我们的16个核心场景，之前对我们17.9%的场景进行了评估（即使在编译了分散在不同之前作品中的评估后），我们改进了96.0%。

为了衡量这些模型，我们必须指定一个适应程序，利用通用语言模型来应对给定的场景。在这项工作中，正如GPT-3开创的那样，我们通过少量提示来适应所有语言模型。我们选择了简单和通用的提示来鼓励开发不需要特定于模型的咒语的通用语言_interfaces _。我们鼓励未来探索其他适应方法的工作，例如更复杂的提示、及时调整和更具互动性的方法。

发现

我们在不同场景中对不同模型进行了4900多次评估。这相当于超过120亿个模型输入和输出令牌，跨越1700万个模型调用，商业模型（根据当前定价方案）的成本为3.8万美元，在Together Research Computer上运行的开放模型花费近2万GPU小时。通过这一点，我们确定了25个顶级发现，我们从中提取了五个要点：

指令调优是OpenAI和Anthropic开创的用人类反馈微调LM的做法，在准确性、鲁棒性和公平性方面非常有效，允许较小的模型（例如Anthropic-LM（50B））与尺寸的10倍的型号竞争（微软/NVIDIA的TNLG v2（530B））。请注意，在模型系列中，扩展仍然有帮助。不幸的是，如何为这些模型执行指令调优并不为公众所知。

目前，开放模型（例如Meta的OPT（175B）、BigScience的BLOOM（176B）、清华大学的GLM（130B））的表现低于非开放式模型（例如，OpenAI的InstructGPT davinci v2、微软/NVIDIA的TNLG v2（530B）和Anthropic-LM（52B））。开放模型在过去一年中有了显著改善，但这些动态是如何展开的，以及这说明了语言建模领域的权力还有待观察。

我们发现（平均）准确性与鲁棒性（例如插入错别字）和公平性（例如，改变方言）相关，尽管在一些场景和模型中，鲁棒性和公平性大幅下降。我们的多指标方法使我们能够监控这些偏差，并确保我们不会忽视超出准确性的考虑因素。有关更多详细信息，请参阅论文第8.1节。

适应战略（例如提示）具有很大的影响，最佳战略取决于情景和模型。有时，即使是定性趋势本身也会发生变化，例如准确性和校准之间的关系（这捕获了模型是否知道它不知道的东西）。这表明标准化、受控评估的重要性，以便我们可以将性能归因于模型与适应策略。这一结果还表明，模型尚不可互操作，这是构建强大的自然语言接口生态系统的重要属性。有关更多详细信息，请参阅论文第8.2节。

我们发现在某些情况下，人类评估至关重要。在总结方面，我们发现语言模型产生有效的摘要（通过人类评估测量），但标准总结数据集（例如CNN/DM，XSUM）中的参考摘要实际上更糟糕（在相同的人类评估下）。根据ROUGE-L等自动指标，对这些数据集进行微调的模型似乎表现良好，但它们也低于语言模型的少量提示。这表明迫切需要更好的总结数据集。对于虚假信息生成，我们发现InstructGPT davinci v2和Anthropic-LM v4-s3（52B）在生成支持给定论文的现实标题方面是有效的，但在提示模型生成鼓励人们执行某些操作的文本时，结果更加复杂。虽然使用语言模型进行虚假信息还不是扣篮，但随着模型变得更加强大，这种情况可能会改变。因此，定期基准测试对于跟踪风险至关重要。有关更多详细信息，请参阅论文第8.5节。

结论

这些发现代表了语言建模景观的当前快照。随着新模型的不断发布，人工智能领域迅速发展（例如，Meta昨天刚刚发布了新的120B参数模型卡拉狄加，我们尚未评估AI21 Labs和Cohere的最新模型，这些模型在过去一周内可用）。因此，今天可能真的明天可能不是真的。

还有一些模型，如谷歌的PaLM和DeepMind的Chinchilla，我们无法访问。我们也不知道OpenAI的InstructGPT davinci v2等现有模型是如何训练的，尽管能够通过API调查它们的行为。因此，作为一个社区，我们仍然缺乏所需的透明度水平，我们需要制定社区规范，以负责任的方式为研究人员提供足够的访问权限。

虽然我们努力使HELM尽可能全面和完整，但总会有新的场景、指标和模型。因此，HELM在设计上凸显了它的不完整性，我们欢迎社区突出任何进一步的差距，帮助我们确定优先级，并提供新的场景、指标和模型。人工智能基准的历史和轨迹与机构特权一致，并赋予决策权。基准确定了议程并指导了进展：我们应该渴望整体、多元化和民主的基准。我们希望社区将采用、发展和审问HELM，以满足这一愿望。让我们共同努力，为语言模型和更广泛的基础模型提供急需的透明度。

透明度产生信任和标准。通过向透明度迈出一步，我们的目标是将基础模型从不成熟的新兴技术转变为体现人类价值观的可靠基础设施。

网站：探索最新的HELM结果，并从汇总统计数据中深入了解原始的基础提示和模型预测。

论文：阅读更多关于HELM原理和结果分析的信息。

GitHub存储库：下载代码并使用HELM进行研究。很容易添加新的场景/指标，并继承进行严格、系统实验的基础设施。