Masumi Morishige Ryo Koshihara
Galirage Inc.
info@galirage.com
摘要
可重复性和可靠性仍然是生成式人工智能系统面临的紧迫挑战,这些系统的性能可能会随着每次模型更新或提示修订而发生变化。我们介绍了GPR-bench,这是一个轻量级且可扩展的基准工具,用于实现通用用途的回归测试。GPR-bench结合了一个开放的双语(英语和日语)数据集,涵盖了八个任务类别(例如文本生成、代码生成和信息检索)以及每个任务类别的十个场景(每种语言共80个测试用例),并通过一个自动化评估管道使用“LLM-as-a-Judge”评分方法对正确性和简洁性进行评分。在三个最近的模型版本(gpt-40-mini、o3-mini和o4-mini)及两种提示配置(默认与简洁写作指令)上的实验揭示了异质质量。我们的结果显示,较新的模型通常提高了正确性,但差异较小且不具有统计显著性,这表明GPR-bench可能不足以区分最近的模型版本。相比之下,简洁写作指令显著增强了简洁性(+12.37个百分点,Mann-Whitney U检验:p<0.001,效应大小r=0.2995),同时对准确性的影响最小(-1.7个百分点),展示了提示工程的有效性。GPRbench以MIT许可证发布,降低了启动可重复性监控的门槛,并为社区驱动的扩展提供了基础,同时也引发了关于快速演进的语言模型基准设计的重要考虑。
关键词:生成式人工智能、可重复性、评估、回归测试、基准测试、开放数据集
1 引言
生成式人工智能(AI)系统——从大型语言模型(LLMs)到图像和代码生成器——在各种任务中取得了显著的成功。这些基础模型随着规模的增长展现出惊人的新能力,但它们的复杂性和规模也引入了行为上的巨大不确定性[1]。特别是,由于出现的行为和不透明的决策过程,我们往往缺乏对这些模型如何工作、何时失败以及具体具备哪些能力的清晰理解。这种不确定性提出了一个根本性的挑战:可重复性。确保生成式人工智能系统在运行和版本之间产生一致、可靠的结果已成为研究界和在实际产品中部署这些模型的实践者的关键关注点[10,11,12]。
长期以来,可重复性被认为是验证机器学习科学进展所必需的[2]。不幸的是,在最先进的模型中实现这一点非常困难。先前的研究表明,即使实验设置或随机种子的微小变化也可能导致截然不同的结果,使得很难判断性能提升是否真正归因于
模型改进还是仅仅是实验中的随机性[3]。这一挑战在生成式人工智能领域尤为突出。与具有固定标签的分类任务不同,生成任务(如开放式文本生成)有无数种有效输出,模型更新或调整可能会无意中以微妙的方式改变输出分布。这种变异性进一步被推理参数(如随机解码策略、温度设置和随机种子值)所加剧,这些参数引入了额外的输出分布变化来源。这一发现表明,如果没有严格的控制和评估,我们可能会误将噪声或调优优势解释为有意义的进步。在快速演进的生成模型背景下,相关的风险是退化:新版本的模型可能整体有所改善,但在某些输入或任务上却意外退化,特别是在那些未明确检查的边缘情况时。确保在模型更新过程中没有能力退化对于维持用户信任至关重要。
可重复性和可靠的模型改进面临的一个关键障碍是缺乏针对生成式人工智能的系统评估框架。研究界已经在创建标准化基准和评估套件以衡量模型性能方面取得了一定进展。值得注意的例子包括通用语言理解评估基准(GLUE)[4],它引入了一系列自然语言理解任务,以及大规模多任务语言理解(MMLU)[5],涵盖需要广泛世界知识的57个不同任务。Beyond the Imitation Game Benchmark(BIG-bench)合作项目[6]进一步通过超过200个具有挑战性的任务扩展了范围。然而,这些基准通常只能提供模型在某一时间点的静态性能快照。它们并非设计为每当模型更新时即可重复使用的回归测试。实际上,当发布新模型或新版本时,研究人员必须重新运行一系列评估,然后手动比较结果以检测退化——这是一个容易出错且在不同研究中往往不一致的过程。
除了基准测试之外,还有一些努力尝试借用软件测试技术来更严格地评估AI模型行为。CheckList [7]等行为测试框架体现了这种方法,引入了受单元测试启发的任务无关方法论。这些方法使研究人员能够发现之前通过标准评估的NLP系统中的关键故障。这些发现强化了评估必须超越聚合分数,深入探究特定行为和潜在退化的必要性。然而,这些努力主要集中在为特定行为或错误类型创建测试用例;它们并未直接提供一个统一的框架来支持模型演进过程中的持续回归测试。
在本文中,我们通过提出GPR-bench——一个新的框架来应对上述挑战,该框架通过在开放数据集上的系统回归测试确保生成式人工智能系统的可重复性。GPR-bench旨在支持生成模型的一般用途,涵盖广泛的任务光谱。该框架有两个主要组成部分:(1)生成模型的回归测试方法论,以及(2)作为测试用例的开放评估数据集和指标套件。我们在AI上下文中形式化了回归测试的方法论,借鉴了软件工程的最佳实践。我们整理了一个多样化的开源数据集和代表性任务集合,用于评估生成模型,确保任何结果都可以由其他人独立重现和验证。
我们实现了并开源了GPR-bench工具包[9],使研究人员和开发人员能够轻松将其集成到模型开发周期中。该工具包提供了脚本和API,可以运行模型执行所有基准任务,记录输出,并计算一系列性能指标。关键的是,它包含函数来比较结果与先前版本的输出,突出任何统计显著的性能下降(潜在的退化)以及改进。通过实证评估,我们证明了GPR-bench可以成功地识别出被聚合指标忽略的退化。
总而言之,我们的贡献有三方面:(1)我们强调了现代生成式AI中迫切的可重复性挑战,并将其框架化为回归测试问题。(2)我们引入了GPR-bench,一个全面的生成模型回归测试框架。(3)通过实证评估,我们证明了GPR-bench有助于可靠地检测性能退化,并提供跨版本的模型行为洞察。我们希望GPRbench将成为标准化持续评估生成模型的一步,使研究人员和业界都能确保AI的进步不仅迅速,而且可重复、可靠且无退化。
图1:概念插图,说明系统提示改进(提示工程)如何影响不同类型任务的答案质量。(a)改进前:一个假设的基线情景,显示跨任务的混合表现。(b)改进后:提示改进后的潜在差异效果示例——展示一个领域的改进(如代码生成)可能与另一领域的退化(如基于角色的响应)同时发生。这个示例案例突显了在不同任务类型上进行全面回归测试的重要性。
2 方法
2.1 基准设计概述
GPR-bench旨在捕捉因模型演变或提示重构而产生的退化。因此,该基准结合了一个多样化的双语(英语和日语)数据集($2.2)与一个可以在每个候选系统版本上执行的自动化评估管道($$ 2.5$)。图1说明了提示工程如何在不同类型的任务中产生差异影响。该图展示了一个假设情景,其中系统提示修改可能在某些任务上提高性能,而在其他任务上降低性能,展示了全面回归测试旨在检测的权衡。提示修改与特定任务性能之间的这种潜在互动突出了生成式AI开发中的关键挑战:一种能力的改进可能会以另一种能力的非预期退化为代价。这促使我们采用系统化回归测试的方法,覆盖多种任务。
表1:数据集统计。
类别 | 场景数量 | 语言 |
---|---|---|
草稿撰写(文本) | 10 | EN, JA |
草稿撰写(程序) | 10 | EN, JA |
信息检索(来自模型知识) | 10 | EN, JA |
信息检索(来自用户输入) | 10 | EN, JA |
信息转换 | 10 | EN, JA |
审查/改进建议 | 10 | EN, JA |
点子生成 | 10 | EN, JA |
基于角色的人格再现 | 10 | EN, JA |
总计 | 80 | 2 |
表2:实验设置和方法的总结。
组件 | 描述 |
---|---|
数据集 | 八个类别中的80个双语场景 |
模型 | 三种ChatGPT变体:gpt-4o-mini-2024-07-18, o3-mini-2025-01-31, o4-mini-2025-04-16 |
提示变体 | 默认(无系统指令)和简洁(带简洁指令) |
评估指标 | 正确性(0-100)和简洁性(0-100) |
评估方法 | 使用OpenEvals框架的LLM-as-a-Judge |
分析 | 模型对比和提示类型对比 |
2.2 数据集构建
我们整理了8个高层次任务类别,每个类别包含10个场景(表1)。任务的选择反映了常见的通用LLM用例。
所有场景均以英语和日语撰写。每个实例存储提示、可选参考和元数据字段。完整的语料库(2025年4月20日的快照)在Hugging Face
1
{ }^{1}
1 上以MIT许可证发布。
2.3 参考答案生成
为了建立可靠的评估基线,我们使用OpenAI的ChatGPT模型o3-2025-04-16生成参考答案。生成过程通过Python脚本实现:
(i) 从JSONL文件加载提示,其中包含来自Hugging Face的英语和日语输入;
(ii) 通过模型处理每个提示,最大令牌限制为16,384;
(iii) 对每个响应进行注释,包括元数据:
- 一个金丝雀标识符,防止训练数据污染;
-
- 一个时间戳,指示数据集创建时间;
-
- 提示的语言(英语或日语);
-
- 任务的技能类别(与任务类别相同)。
2.4 模型和提示变体
我们基准测试了OpenAI ChatGPT系列中的三个公开文档化的模型检查点:gpt-4o-mini-2024-07-18、o3-mini-2025-01-31 和 o4-mini-2025-04-16。对于每个模型,我们执行了两种提示配置:(i) 默认(无系统指令)和 (ii) 简洁,其前置"Please write as concisely as possible."。这种 3 × 2 3 \times 2 3×2 设计暴露了架构和提示变化的敏感性。
1 { }^{1} 1 https://huggingface.co/datasets/galirage/GPR-bench
2.5 评估管道
质量沿两个轴测量:
- 正确性 - 与任务意图的对齐(相对于参考答案进行评估)
-
- 简洁性 - 在不丢失关键信息的情况下简明扼要(无需参考进行评估)
我们采用了LLM-as-a-Judge范式,通过开源OpenEvals框架[9]实现,该框架查询参考LLM并返回整数得分在 [ 0 , 100 ] [0,100] [0,100]范围内加上理由文本。评估结果结构化为一个带有两个字段的Python类:一个得分字段,取值范围为0到100的整数值,和一个评论字段,包含给定得分的评估者理由。
- 简洁性 - 在不丢失关键信息的情况下简明扼要(无需参考进行评估)
我们的评估管道:
(i) 从Hugging Face加载数据集;
(ii) 通过目标模型生成每个提示的答案,最大令牌限制为16,384;
(iii) 根据参考答案评估生成的响应正确性;
(iv) 独立评估简洁性,不参考黄金标准;
(v) 将综合结果导出到Excel文件中,包括:
- 原始提示和参考答案;
-
- 生成的响应;
-
- 正确性和简洁性得分(0-100);
-
- 评估者理由(由LLM生成的评论);
-
- 关于模型和提示配置的元数据。
这些过程由01_generate_answer_and_evaluate.py脚本实现。
- 关于模型和提示配置的元数据。
2.6 分析方法
为了系统地分析结果,我们实现了两个互补的分析脚本:
2.6.1 模型比较分析
第一个分析脚本(02_compare_by_model.py)比较不同模型版本的性能:
(i) 聚合来自多个Excel文件的结果,每个文件包含不同模型的输出;
(ii) 提取模型元数据并标准化得分列;
(iii) 生成按以下内容分层的可视化:
- 评估指标(正确性 vs. 简洁性);
-
- 语言(英语 vs. 日语);
-
- 技能类别(八种不同的任务类型)。
- (iv) 计算并可视化:
-
- 整体平均得分及其2个标准差误差条;
-
- 各模型间的特定技能性能趋势;
-
- 单个提示性能轨迹。
此分析揭示了较新的模型版本是否在所有任务类别中表现出一致的改进,或者仅在特定任务上有所增强。
- 单个提示性能轨迹。
2.6.2 提示类型比较分析
第二个分析脚本(03_compare_by_prompt_type.py)检查提示工程的影响:
(i) 结合所有模型版本和两种提示配置的结果;
(ii) 将提示分类为默认或简洁;
(iii) 生成与模型比较类似的分层可视化;
(iv) 量化简洁性收益和潜在正确性损失之间的权衡。
此分析确定提示修改是否在所有模型中产生一致的好处,或产生特定于模型的交互。
2.6.3 统计验证分析
第三个分析脚本(04_statistical_test.py)进行正式的统计测试,以验证基准对提示变化的敏感性:
(i) 加载并预处理来自所有模型版本和提示配置的数据;
(ii) 使用Shapiro-Wilk检验进行正态性检验,以确定适当的统计方法;
(iii) 根据正态性结果应用参数检验(独立t检验)或非参数检验(Mann-Whitney U检验);
(iv) 计算效应量(t检验的Cohen’s d,Mann-Whitney U检验的r)以量化差异的大小;
(v) 使用箱形图和单个数据点可视化结果以显示得分分布。
此分析提供了基准能够检测输出质量有意义差异的统计证据,确立其作为回归测试工具的有效性。
两个分析脚本均采用一致的可视化参数(图表大小、配色方案、坐标轴限值)以方便直接比较。误差条代表2个标准差,以提供得分变异性的保守估计。
2.7 实现与可重复性
代码、数据集和确切提示均通过宽松的MIT许可证进行版本控制并发布,以支持外部复制。完整的评估管道可在GitHub 2 { }^{2} 2 上获得,所有结果都存储在Excel文件中以确保透明度和进一步分析。本研究中使用的所有模型快照(gpt-40-mini-2024-07-18、o3-mini-2025-01-31、o4-mini-2025-04-16和o3-2025-04-16)均已公开记录并可供重复性验证[13]。
3 结果
3.1 模型比较:有限的正确性区分
在整个基准测试(80个英文场景和80个日文场景,总计160个测试用例)中,最新检查点o4-mini-2025-04-16获得了最高的平均正确性得分( M = 92.2 , S D = 6.4 \mathrm{M}=92.2, \mathrm{SD}=6.4 M=92.2,SD=6.4),超过了o3-mini-2025-01-31( M = 90.1 , S D = 8.0 \mathrm{M}=90.1, \mathrm{SD}=8.0 M=90.1,SD=8.0)和gpt-40-mini-2024-07-18(M = 89.8, SD = 6.6)。然而,正如图2所示,模型之间的差异相对较小且不具有统计显著性,这表明GPR-bench可能不足以区分最近的模型版本。这一观察结果引发了关于快速演进的语言模型基准设计的重要考虑。
2
{ }^{2}
2 https://github.com/galirage/gpr-bench
表3:不同模型版本的正确性得分。
模型 | 平均值 | 标准差 | 最小值 | 最大值 | 中位数 | 数量 |
---|---|---|---|---|---|---|
gpt-4o-mini-2024-07-18 | 89.75 | 6.61 | 60 | 100 | 90 | 160 |
o3-mini-2025-01-31 | 90.13 | 8.13 | 25 | 100 | 90 | 160 |
o4-mini-2025-04-16 | 92.19 | 6.38 | 50 | 100 | 95 | 160 |
图2:英文提示的正确性得分比较。柱状图显示不同模型的平均正确性得分和标准差。包括总体平均值(蓝线)、特定技能平均值(彩色虚线)和单个提示数据(灰色虚线)。当模型更改时,正确性的变化很小。
性能重叠显著。最低得分差异明显(分别为60、25和50),表明所有模型都有显著低性能的实例,尽管这些情况相对少见。
3.2 提示比较:显著的简洁性改进
添加系统提示“Please write as concisely as possible.”始终在所有模型和语言中提高了简洁性(图3)。在所有模型中,简洁提示平均提高了 +12.37 百分点(从 44.82 到 57.18 ),同时略微降低了正确性 1.7 百分点——这是一种有利的权衡,保持高准确性的同时显著提高了简洁性。
如表4所示,简洁提示在所有模型中始终提高了简洁性得分,改进幅度从 +11.86 到 +16.94 个百分点。值得注意的是,标准差在所有条件下仍然相对较高(23.61-25.85),表明简洁性得分存在显著变异性。中位数得分显示出简洁提示带来的清晰改进模式,分别增加了 15.00、25.00 和 12.50 分。
简洁性的改进在所有三个模型中都非常一致,增益范围从 +10.1 到 +12.37 百分点。这种一致性表明,即使模型架构发生变化,提示工程也可以带来可靠的改进。有趣的是,简洁性和正确性之间的权衡也非常一致,所有模型在被要求简洁时都表现出轻微的正确性惩罚(1.2-2.1 百分点)。
表4:不同模型版本和提示类型的简洁性得分。
模型 | 提示类型 | 平均值 | 标准差 | 最小值 | 最大值 | 中位数 |
---|---|---|---|---|---|---|
gpt-4o-mini-2024-07-18 | 简洁 | 55.45 | 24.41 | 10 | 100 | 52.50 |
gpt-4o-mini-2024-07-18 | 默认 | 43.59 | 23.61 | 10 | 100 | 37.50 |
o3-mini-2025-01-31 | 简洁 | 59.63 | 24.75 | 10 | 100 | 60.00 |
o3-mini-2025-01-31 | 默认 | 42.69 | 24.62 | 0 | 100 | 35.00 |
o4-mini-2025-04-16 | 简洁 | 56.47 | 25.28 | 10 | 100 | 52.50 |
o4-mini-2025-04-16 | 默认 | 48.17 | 25.85 | 10 | 100 | 40.00 |
图3:英文提示的简洁性得分比较。柱状图显示默认和简洁提示的平均简洁性得分和标准差。包括总体平均值(蓝线)和特定模型平均值(彩色虚线)。
3.3 基准敏感性的统计验证
为了验证GPR-bench能否可靠地检测输出质量的有意义差异,我们对默认和简洁提示的简洁性得分进行了正式的统计测试。Shapiro-Wilk正态性检验显示,两种提示类型均违反正态性假设( p < 0.001 p<0.001 p<0.001),需要使用非参数方法。因此,我们采用了Mann-Whitney U检验,确认了提示类型之间存在统计显著差异( U = 80696.5 , p < 0.0001 \mathrm{U}=80696.5, p<0.0001 U=80696.5,p<0.0001)。效应量较小( r = 0.2995 \mathrm{r}=0.2995 r=0.2995),根据Mann-Whitney U检验的传统解释指南。默认提示的平均简洁性得分从44.82提高到简洁提示的57.18,代表了27.6%的改进(图4)。
3.4 总结
我们的实验结果展示了两个关键发现:(i) 模型改进并不总能在所有场景中转化为显著的性能提升,(ii) 提示工程可以显著改进输出质量的特定方面(如简洁性),同时保持整体正确性。这些发现突显了在生成式AI系统中进行系统回归测试的重要性,因为无论是模型架构的变化还是提示策略的变化都可能导致不同场景中的质量变化不一致。
图4:默认和简洁提示间简洁性得分的统计比较。箱形图显示个体数据点的得分分布。Mann-Whitney U检验确认了统计显著差异( p < 0.001 p<0.001 p<0.001),效应量较小( r = 0.2995 \mathrm{r}=0.2995 r=0.2995)。
4 讨论
4.1 对商业实践的意义
实验结果强调了生成式AI部署中的一个关键现实:系统性能某一方面的改进往往伴随着其他方面的退化。如图1概念性展示,这种权衡可以通过各种方式表现出来,包括提示修改和特定任务性能之间的潜在相互作用。这些发现突显了在整个开发和部署生命周期中进行连续回归测试的必要性,尤其是在实施系统范围的更改(如提示优化)时。
4.2 GPR-BENCH的实际效用
三个特性使该框架立即适用于生产流水线:
(i) 轻量级可扩展性:用户可以附加自定义任务或交换评估指标,只需少量代码更改,使组织能够创建特定领域的回归测试套件。
(ii) 语言覆盖:双语(EN/JA)场景暴露了可能在单一语言测试中遗漏的本地化退化,这对全球部署至关重要。
(iii) 模型无关评分:LLM-as-Judge评分标准将评估与任何单一架构分离,促进专有或开源检查点之间的比较。
这些特性,再加上实现的开源性质,使GPR-bench特别适合寻求为其生成式AI系统建立系统质量保证实践的组织。
4.3 统计分析解释
我们的统计验证显示,即使是效果量相对较小的情况下,提示变化仍可产生统计显著的输出质量差异。Mann-Whitney U检验确认简洁性指令始终提高了简洁性(
p
<
0.001
\mathrm{p}<0.001
p<0.001),效应量虽小
但意义重大(
r
=
0.2995
\mathrm{r}=0.2995
r=0.2995)。这一发现对提示工程实践具有重要影响,表明即使是细微的提示修改也能在输出质量的特定方面带来可测量的改进。
这些效应在不同模型版本中的一致性尤其值得注意,表明提示工程策略可能比以前假设的更具可转移性。这种可转移性可以简化稳健提示策略的开发,使其在模型更新中可靠工作。
4.4 实施注意事项
GPR-bench实现融入了几项设计选择,增强了其实用性:
(i) 模块化架构:框架将数据生成、评估和分析分为独立组件,允许用户替换或扩展个别模块而不影响整个流程。
(ii) 自动报告:分析脚本生成全面的可视化和统计报告,减少了解释结果所需的手动工作。
(iii) 版本控制集成:所有代码、数据和结果均进行版本控制,从而精确跟踪变更及其对系统性能的影响。
这些实施细节确保GPR-bench可以无缝集成到现有的开发工作流中,从初始原型设计到生产部署。
4.5 局限性
当前研究存在几个应考虑的局限性:
(i) 数据集大小:80个场景语料库(总计160个测试用例),虽然广泛,但无法穷尽表示所有生成行为,可能无法提供足够的统计能力来检测所有任务类别的细微退化。
(ii) 基准难度:当前基准可能不足以区分最近的模型版本,正如正确性得分的微小差异所示。
(iii) 统计测试范围:尽管我们对提示变化进行了正式的统计测试,但我们并未对所有模型比较进行全面的显著性测试,因为重点在于检测退化而非量化模型差异。
(iv) 评估者偏差:LLM-as-a-Judge方法可能根据所用的具体模型引入系统性偏差,可能影响不同评估运行中评估的一致性。
4.6 未来工作
计划中的扩展包括:(i) 增加场景多样性(如多模态提示、领域特定知识任务);(ii) 集成自动幻觉检测器以补充正确性评分;(iii) 支持开箱即用的显著性测试。我们还邀请社区通过拉取请求共同演化基准以适应新兴用例。
计划在未来的版本中进行的具体技术改进包括:
(i) 自动回归检测:实现算法以自动识别并标记跨模型版本的重大性能退化。
(ii) 持续集成支持:添加GitHub Actions工作流,以便作为CI/CD管道的一部分进行自动测试。
(iii) 扩展语言支持:将基准扩展到包括除英语和日语以外的其他语言。
(iv) 交互式可视化仪表板:开发基于Web的界面以探索结果并识别不同维度中的模式。
(v) 评估者多样性:实现多个评估模型和集成方法以减少LLM-as-a-Judge方法中的潜在偏差。
(vi) 全面统计测试:添加所有模型比较的自动统计测试,以提供更强有力的性能差异证据。
该框架对多语言评估的重视也有助于推广在不同语言和文化背景下表现一致的更具包容性的AI系统。通过突出不同语言之间性能的潜在差异,GPR-bench可以帮助识别和解决多语言模型中的偏差,为更加公平的AI系统做出贡献。
5 结论
我们介绍了GPR-bench,一个开放且可扩展的框架,用于实现生成式AI系统的回归测试。通过将双语、任务多样的数据集与自动化的LLM-as-Judge管道相结合,该基准能够在模型更新和提示优化过程中实现系统的质量保证。我们的实验结果表明,即使是看似微小的变化也可能导致异质的质量变化,强调了在生产环境中进行连续回归测试的重要性。GPR-bench以MIT许可证发布,为组织建立生成式AI系统的稳健质量保证实践提供了基础,同时也作为推动行业广泛采用系统回归测试方法的催化剂。
致谢
感谢开源社区提供的早期反馈和拉取请求,这些帮助完善了数据集设计和评估标准。
参考文献
[1] R. Bommasani等人,“基础模型的机会与风险”,斯坦福CRFM报告,2022。[在线]。可用:https://arxiv.org/abs/2108.07258
[2] P. Henderson等人,“重要的深度强化学习”,AAAI会议论文集,2018。[在线]。可用:https://arxiv.org/abs/1709.06560
[3] M. Lucic等人,“生成对抗网络是否平等?大规模研究”,NeurIPS会议论文集,2018。[在线]。可用:https://arxiv.org/abs/1711.10337
[4] A. Wang等人,“GLUE:自然语言理解的多任务基准和分析平台”,ICLR会议论文集,2019。[在线]。可用:https://arxiv.org/abs/1804.07461
[5] D. Hendrycks等人,“测量大规模多任务语言理解”,ICLR会议论文集,2021。[在线]。可用:https://arxiv.org/abs/2009.03300
[6] A. Srivastava等人,“超越模仿游戏基准(BIG-bench)”,机器学习研究交易,2022。[在线]。可用:https://arxiv.org/abs/2206.04615
[7] M. T. Ribeiro等人,“超越准确性:使用CheckList对NLP模型进行行为测试”,ACL会议论文集,2020。[在线]。可用:https://arxiv.org/abs/2005.04118
[8] AIMultiple Research,“可重复的人工智能:为什么它很重要以及如何改进它”,技术报告,2025。[在线]。可用:https://research.aimultiple.com/reproducible-ai/
[9] LangChain,“使用OpenEvals快速开始评估LLM”,博客文章,2024。[在线]。可用:https://blog.langchain.dev/evaluating-llms-with-openevals/
[10] M. Hutson,“人工智能面临可重复性危机”,Science,卷359,第6377期,第725-726页,2018。[在线]。可用:https://www.science.org/doi/10.1126/science.359.6377.725
[11] O. E. Gundersen和S. Kjensmo,“现状:人工智能中的可重复性”,AAAI会议论文集,2018。[在线]。可用:https://ojs.aaai.org/index.php/AAAI/article/view/11503
总体平均
草稿撰写(测试)的平均值
草稿撰写(程序)的平均值
从学习知识中获取信息检索的平均值
从输入数据中获取信息检索的平均值
从输入数据中获取信息转换的平均值
从输入数据中获取审查和改进建议的平均值
创意生成的平均值
基于角色的人格再现的平均值
图5:英文提示的简洁性得分比较。柱状图显示不同模型的平均简洁性得分和标准差。包括总体平均值(蓝线)、特定技能平均值(彩色虚线)和单个提示数据(灰色虚线)。
[12] B. Haibe-Kains等人,“人工智能中的透明度和可重复性”,Nature,卷586,第E14-E16页,2020。[在线]。可用:https://www.nature.com/articles/s41586-020-2766-y
[13] OpenAI,“模型”,OpenAI文档,2024。[在线]。可用:https://platform.openai.com/docs/models
补充材料
附加图表
图6:英文提示的正确性得分比较。柱状图显示默认和简洁提示的平均正确性得分和标准差。包括总体平均值(蓝线)和特定模型平均值(彩色虚线)。
图7:日文提示的正确性得分比较。柱状图显示不同模型的平均正确性得分和标准差。包括总体平均值(蓝线)、特定技能平均值(彩色虚线)和单个提示数据(灰色虚线)。
图8:日文提示的简洁性得分比较。柱状图显示不同模型的平均简洁性得分和标准差。包括总体平均值(蓝线)、特定技能平均值(彩色虚线)和单个提示数据(灰色虚线)。
图9:日文提示的正确性得分比较。柱状图显示默认和简洁提示的平均正确性得分和标准差。包括总体平均值(蓝线)和特定模型平均值(彩色虚线)。
图10:日文提示的简洁性得分比较。柱状图显示默认和简洁提示的平均简洁性得分和标准差。包括总体平均值(蓝线)和特定模型平均值(彩色虚线)。
参考论文:https://arxiv.org/pdf/2505.02854