在人工智能领域,衡量模型能力的进步通常体现在新模型在各种任务上的表现。然而,评估语言模型,特别是大型语言模型(LLM),却是一项挑战。因为评估方法的细微改变,例如提示格式、上下文示例的选择、概率归一化和任务表述方式,都会导致模型性能的显著变化。目前还没有通用的评估标准,导致不同模型在同一任务上使用不同的评估方法,进而使得关于哪个模型表现最好的结论无法被复制。
为了解决这一问题,我们提出了 OLMES(开放式语言模型评估标准),一个完全记录、实用、开放的标准,旨在实现 LLM 评估的可重复性。在制定这个标准的过程中,我们识别并审查了社区中采用的各种评估方法,例如提示格式的细节、上下文示例的选择、概率归一化和任务表述方式。特别地,OLMES 支持对需要非自然“完形填空”格式的多项选择题的小型基础模型与能够利用原始格式的大型模型进行有意义的比较。OLMES 包含经过深思熟虑的建议,这些建议来自现有文献的结果,以及针对开放性问题的新的实验研究。
评估的困境:不可重复性和性能夸大
当前 AI 领域存在两个主要问题:
- 不可重复性: 发布新模型并与之前报道的结果进行比较存在缺陷,除非之前的工作明确描述了他们的完整评估设置,并且新工作遵循了该设置。不幸的是,这些结果无法与使用不同格式的先前工作进行比较。重要的是,在同一下游任务上比较模型的主要目标是衡量它们的相对优势。正如我们在表 1 中展示的那样,这确实是一个问题,它说明了几个模型在 ARC-CHALLENGE(Clark 等人,2018)和 OPENBOOKQA(Mihaylov 等人,2018)任务上的已发表性能在文献中的差异。例如,查看表 1 中 ARC-CHALLENGE 的 Ref1,我们可以得出结论,Llama2-13B 和 Llama3-8B 的性能相似,但 Ref6 表明它们之间可能存在超过 10% 的差距。对于 OPENBOOKQA,在 Falcon-7B 上,Ref2 和 Ref8 之间存在超过 25% 的差异,只有在考虑非常不同的任务表述方式时,这种差异才有意义。
- 性能夸大: 一些论文可能会通过为其模型优化提示格式来报告过高的性能,而另一些论文则没有这样做。事实上,我们在 HELM 的一项最新研究中发现,这可能是一个普遍的问题(Mai 和 Liang,2024)。当使用单一格式评估一组模型并将其与每个模型的自报告结果进行比较时,他们发现性能存在显著差异。特别是,他们的发现表明,自报告性能较高的模型在复制中得分较低,这表明一些模型的性能被高估了(参见附录中的图 4)。
OLMES:一个开放、可重复、实用的评估标准
为了解决这些问题,我们提出了 OLMES(开放式语言模型评估标准),这是一个从实用角度提高语言模型评估透明度和可重复性的标准,消除了在评估模型时获得最终性能指标的模糊性。OLMES 可以应用于模型开发过程中的评估、排行榜和论文,并提供关于数据采样、实例格式、上下文示例的选择、概率归一化和任务表述方式的合理建议。
重要的是,OLMES 具有以下特点:
- 可重复性: OLMES 详细说明了评估的所有细节,从处理数据集到向模型展示任务,再到处理模型的输出,因此评估程序不存在任何模糊性。
- 实用性: OLMES 在使用计算资源方面做出了实际的决策,以便社区能够轻松采用。
- 文档化: 标准中的每个决策都附有说明,这些说明是通过应用现有研究的原则并进行实验来调查开放性问题而得出的。
- 开放性: 我们发布了所有提示和代码,以及在 OLMES 中做出的选择背后的理由,以便后续工作能够遵循并构建在这些原则之上,将相同的原则扩展到任何新的任务和模型。
由于 OLMES 是一个记录完整、实用、开放的评估标准,因此它可以很容易地在公开可用、维护良好的评估代码库中采用,例如 Eleuther LM 评估工具(Gao 等人,2023;Biderman 等人,2024)和 HELM(Liang 等人,2023)。当模型开发人员和其他研究人员使用 OLMES 时,它将有助于统一该领域的评估实践。所有用于 OLMES 的提示、示例和代码都可以在 https://allenai.org/data/olmes 上找到。
实验设置:多项选择问答和 LLM 评估
多项选择问答 (MCQA) 任务提供了一种引人注目的方法来评估模型和人类,因为评分很容易(是否从给定的选项中选择了正确答案),并且允许在域和问题的复杂性方面灵活选择。此类任务构成了 LLM 评估的重要组成部分,也是 OLMES 的重点。通常有两种方法可以表述这些任务:
- MCF(多项选择格式): 展示由标签指示的答案选项,并对答案标签的预测进行评分,就像对人类提出 MCQA 一样。以下是一个来自 ARC-EASY(Clark 等人,2018)的 MCQA 示例,该数据集包含真实的初级水平科学问题:
问题:地球的核心主要由以下哪种物质构成?
(A) 玄武岩 (B) 铁 © 岩浆 (D) 石英
答案: (B)
- CF(完形填空格式): 使用 LM 令牌概率分别对每个答案选项进行评分。MCF 格式与生成下一个令牌的纯粹语言建模性质不兼容。因此,CF 格式是在评估 GPT-3 模型(Brown 等人,2020)时引入的。他们发现,使用任务的“完形填空”完成版本可以获得更好的性能,在这种版本中,模型会看到类似的提示:
问题:地球的核心主要由以下哪种物质构成?
答案: ,其中每个答案选项都被分别替换为 。
然后,使用 LM 对答案选项令牌的概率对选项进行排序并预测答案。这种表述方式有自然的局限性,例如无法正确处理一个答案选项是“以上都不是”的情况。
OLMES 的标准化选择:格式化、示例、归一化和任务表述
为了评估模型在数据集上的表现,需要做出各种决策才能获得该模型在该数据集上的最终准确性指标。这些决策包括:
- 如何格式化数据集实例?