缩放定律如何应用于知识图谱工程任务？模型大小对大型语言模型性能的影响-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/148177061

德西蕾·海姆 ${ }^{1,2, *}$ ，拉尔斯-彼得·迈耶 ${ }^{3,4}$ ，马库斯·施罗德 ${ }^{1}$ ，约亨内斯·弗雷 ${ }^{3,5}$ 和安德烈亚斯·登格尔 ${ }^{1,2}$
${ }^{1}$ DFKI, 凯泽斯劳滕，德国
${ }^{2}$ RPTU, 凯泽斯劳滕，德国
${ }^{3}$ InfAI, 莱比锡，德国
${ }^{4}$ 化学工业大学，德国
${ }^{5}$ 莱比锡大学，德国

摘要

当使用大型语言模型（LLMs）支持知识图谱工程（KGE）时，寻找合适模型的一个首要指标是其规模。根据缩放定律，较大的模型通常表现出更高的能力。然而，在实践中，资源成本也是一个重要因素，因此考虑模型性能与成本之间的比率是有意义的。LLM-KG-Bench框架使得在KGE任务背景下比较LLMs成为可能，并评估它们理解和生成知识图谱及其查询的能力。基于一个包含26个开放前沿LLMs的数据集运行LLM-KG-Bench，我们探讨了特定于KGE任务的模型大小缩放定律。在我们的分析中，我们评估了不同模型大小类别的基准分数如何演变。此外，我们检查单个模型和模型家族的一般得分发展与其大小的相关性。我们的分析显示，除了少数例外情况外，模型大小缩放定律总体上也适用于所选的KGE任务。然而，在某些情况下，出现了平台或天花板效应，即模型与其下一个更大模型之间的任务性能没有显著变化。在这种情况下，可以考虑较小的模型以实现高成本效益。对于同一家族的模型，有时较大的模型表现不如同一家族的较小模型。这些效应仅局部发生。因此，建议另外测试同一家族的下一个最小和最大模型。

关键词

LLM, RDF, SPARQL, 知识图谱, LLM评估, 知识图谱工程, 缩放定律

1. 引言

知识图谱（KGs）[1]以结构化方式存储关于现实世界领域的事实，便于通过规则和现有知识推导新信息。然而，它们的创建和维护，通常被称为知识图谱工程（KGE），通常需要大量手动劳动密集型工作，包括起草适当的本体、将数据源转换为所需格式以及解决数据完整性问题等活动。随着大型语言模型（LLMs）的出现，已经开发了各种利用LLMs的方法来支持KGE任务 $[2, 3, 4, 5, 6, 7, 8]$ 。一旦LLMs被采用，就会产生一个问题：它们在处理KGs和KGE挑战方面表现如何。为了回答这个问题，LLM-KG-Bench基准框架 [9, 10] 评估了

ESWC 2025: 第二届知识工程中的语言模型评估研讨会 (ELMKE)，2025年6月1日至5日，斯洛文尼亚波尔托罗什
    * 对应作者。
    *     (C) desiree.heim@dfki.de (D. Heim); lpmeyer@infai.org (L. Meyer); markus.schroeder@dfki.de (M. Schröder); frey@informatik.uni-leipzig.de (J. Frey); andreas.dengel@dfki.de (A. Dengel)
    *     0000-0003-4486-3046 (D. Heim); 0000-0001-5260-5181 (L. Meyer); 0000-0001-8416-0535 (M. Schröder); 0000-0003-3127-0815 (J. Frey); 0000-0002-6100-8255 (A. Dengel)
    * LLMs 在需要理解 KG 的任务上的性能 [11, 12] 及其模式和查询语言 [10,13]。

该基准的结果不仅展示了单个模型的性能，还可能提供有关 KGE 特定缩放定律的宝贵指示。此类缩放定律通常研究 LLM 任务性能与其模型大小、训练数据大小或使用的计算训练资源的关系 [14]。特别是在模型大小方面，通常的预期是 LLM 越大，其在下游任务上的性能越好。然而，这一假设可能是错误的。此外，更大的模型通常涉及更高的成本。特别是，较大模型相比小模型更高的内存消耗是一个高度相关的成本因素，因为需要更多或更强大的硬件如 GPU。同时，参数大小也会影响推理时间，假设使用相同的硬件设置，更多的参数意味着需要计算更多的权重。这里，专家混合（MoE）模型形成了一种例外，因为在推理期间只有活动参数的数量，即从总参数中选择的比例参数，影响推理时间。因此，当在 MoE LLM 和另一个具有相同总数参数且任务性能相似的模型之间进行选择时，MoE 具有更高的成本效益。然而，在实践中，使用相同的硬件单独托管较小和较大的 LLM 并不一定是现实的，因为较小模型不会完全耗尽硬件（例如 GPU）的能力，例如在相同设置下，目标并发请求数量和最大输入长度相同。因此，除 MoE 模型与其他类似大小的 LLM 相比之外，考虑 LLM 的内存需求是优选的。总之，考虑到成本效益，即特别是内存需求，最大的模型可能不是最佳选择，必须找到模型性能和模型资源需求之间的良好平衡。

在本文中，我们因此分析了 LLM 缩放定律在 KGE 任务中的模型大小关系。我们的分析数据来自最近发布的 LLM-KG-Bench 基准运行 [10]。它涵盖了五个供应商提供的26个开放最先进 LLM，总共十一个模型系列，即由特定供应商发布的模型系列。使用基准结果和统计分析与可视化的结合，我们希望对以下问题给出初步答案：基准分数 …

…如何与不同的 LLM 模型大小组相关？
1. …如何随着模型大小的变化而发展？
1. …如何在特定模型系列内随模型大小变化而发展？
  通过回答这些问题，我们旨在获得对模型大小缩放定律在 KGE 任务中的更普遍见解，这些见解也可以转移到未包含在基准运行中的模型上。

本文结构如下：第2节介绍相关工作。在第3节中，我们描述了用于分析的 LLM-KG Bench 运行和获得的数据集。在第4节中，我们特别分析了数据集与模型大小和基准性能之间的相关性。在分析之后，我们在第5节中总结并讨论所获得的见解。第6节总结本文并展望未来的工作。

2. 相关工作

为了比较大量的LLMs，有几个LLM排行榜，根据一系列基准或工作负载对各种LLMs进行排名。其中著名的排行榜包括Chatbot Arena [15]，它通过人类偏好对模型进行交互任务的评价，以及OpenLLMLeaderboard [16]，涵盖了超过2,000个模型的众多标准任务，如MMLU、BBH和GPQU。同样，HELM [17] 提供了包括领域特定基准如LegalBench和MedQA在内的综合评估。

关于代码生成，这与KGE基准测试有一些概念上的相似之处，也有几个专门的基准和排行榜存在。突出的代码基准包括Hu-
manEval 和 MultiPL-E，评估在 Big Code Models Leaderboard ${ }^{1}$ 中，以及 EvalPlus [18]，它同时使用 HumanEval 和 Mostly Basic Python Programming (MBPP) 基准。CanAiCode Leaderboard ${ }^{2}$ 特别针对小型LLM的文本到代码任务。这些专注于代码的基准强调结构化输出、语法正确性和执行正确性，反映了KGE任务中的评估标准，从而提供了对LLM生成结构化输出进行基准测试的相关见解。

然而，上述尝试并未涵盖专门与知识图谱工程（KGE）[19]相关的任务评估，如RDF语法正确性、SPARQL查询生成或图理解。

针对KG相关评估的努力通常集中在特定问题上，如文本到RDF转换[20, 21]、知识图谱问答（KGQA）[22]和SPARQL查询生成[7, 23]。这些评估通常只关注孤立的任务，并经常涉及人工评估，这限制了可扩展性和适应新LLM及任务变体的能力。与我们对结构化输出的兴趣密切相关的一个例外是StructuredRAG [24]，它评估LLM生成的基于JSON的结构化响应。

为了解决现有基准努力中的空白，特别是关于RDF和SPARQL任务的问题，LLM-KG-Bench [9, 10] 提供了一个专门的自动化基准环境，用于评估RDF和SPARQL任务中的语义正确性和语法处理。与通用基准如HELM或BigBench [25]相比，LLM-KG-Bench强调语义和语法正确性而非多项选择准确性，显著减少了创建和评估KG相关任务的技术复杂性 $[11, 12, 13]$ 。

先前的研究已经调查了LLM参数大小与任务性能之间的相关性[14, 26]。对于相同任务，较大的LLM通常优于较小模型，还表现出新兴能力（在较小模型中不存在），如复杂推理或细致指令跟随能力[26, 27]。然而，这种关系并非普遍线性；任务类型、复杂性和输入输出结构可以显著影响较大模型是否能带来比例更好的性能。关于知识图谱工程的情景和任务，通常需要处理RDF序列化格式和范式，仍然探索不足。本研究通过明确检查模型大小如何影响在KG工程背景下各种RDF和SPARQL任务的性能来填补这一空白。

3. 数据集

这项工作分析了由LLM-KG-Bench框架[9, 10]生成的数据。LLM-KG-Bench框架提供了定义与KG工程相关的自动化任务的基础设施，这些任务可以在许多LLMs上重复执行以评估它们的性能。由于评估也是自动化的，可以重复相同的实验，这增加了可重复性，并为统计分析提供了更广泛的样本量，以考虑LLM生成答案的概率性质。

本工作中使用的数据集评估了超过30个开放和专有的LLMs在26个RDF和SPARQL相关任务变体上的表现。

数据集中包含来自三个开放LLM提供商的LLMs：Qwen、Meta-LLama和Microsoft-Phi。它们之所以被选中是因为它们提供了官方指令微调的大型语言模型，并且在2024年12月的Open LLM Leaderboard [16]上根据所有基准测试的平均得分排名最高 ${ }^{3}$ 。我们将选择限制在参数数量不超过80B的模型，因为我们可用的硬件资源有限。除此之外，数据集还包括三个经过微调或优化以理解和生成代码的LLMs，这些任务也需要处理与KG相关任务类似的结构化数据：Qwen2.5-Coder-Instruct-32B，

${ }^{1}$ https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard
${ }^{2}$ https://huggingface.co/spaces/mike-ravkine/can-ai-code-results
${ }^{3}$ Upstage提供的太阳能LLM家族在此处被排除在外，因为这些模型仅支持最多4096 k Token的最大上下文长度，这不足以完成所有任务
Infly-OpenCoder-8B-Instruct 和 deepseek-coder-33b-instruct。对于这些模型的选择，我们参考了EvalPlus Leaderboard [18]报告的Mostly Basic Python Programming (MBPP) Benchmark得分，并选择了不大于80B参数的顶级指令微调模型，据报道这些模型被明确优化或微调用于代码。

模型大小范围从0.5亿参数到72亿参数。两个包含的LLMs是专家混合模型：Qwen2-Instruct，具有57亿参数（14亿活跃）和Phi-3.5-instruct，具有42亿参数（6.6亿活跃）。对于专家混合模型，在推理过程中只有部分参数处于活跃状态，导致有效参数数低于总模型大小。表1提供了已评估模型的概述。有关模型及其选择的更多细节，请参见专用论文[10]。

除了开放的LLMs，一些在Chatbot Arena Leaderboard [15]上持续获得高分的专有LLMs也被纳入基准运行，具体包括来自OpenAI GPT、Google Gemini和Anthropic Claude系列的模型，即ChatGPT 3.5 turbo、ChatGPT 4o、ChatGPT 4o-mini、ChatGPT o1、ChatGPT o1-mini、Gemini 2.0 Flash、Gemini 1.5 Pro、Gemini 1.5 Flash、Claude 3.5 Sonnet 和 Claude 3.5 Haiku。然而，由于专有LLMs的模型大小未记录，我们仅选择了剩余的26个开放LLMs进行主要分析，并简要提及专有模型取得的分数，以便更好地分类开放LLMs的性能。

在数据集中包含的26个任务变体中，我们分析了RDF和SPARQL处理领域中的七类任务中的23个变体。为了专注于各种输入格式进行一致性比较，排除了Text2Sparql的三个任务变体，这些变体使用其他KG作为数据集，并将数据集中RdfFriendCount的八个任务变体聚合为四个任务变体进行分析。同一任务类的任务变体具有相似的提示和评估，但例如展示给LLM的序列化格式（JSON-LD、N-Triples、Turtle、XML）不同。

对于每个开放LLM，分别针对每种任务变体执行了50次重复实验。为了评估LLMs的性能，任务会基于LLM的回答计算多个度量值，这些值位于区间 $[0, 1]$ 内，更好的回答会导致更高的分数。这些度量通常包括基于召回率、精确率和F1度量的度量，以及例如简洁度量或指示回答至少在语法上正确的度量。对于某些任务，定义了具有不同严格程度的度量变体。

我们选择了以足够不同方式检查结果正确性的度量，以提供简洁的概述。因此，未包括简洁度量，而是选择了基于F1的度量而不是基于精确率和召回率的度量。对于类似度量，仅选择了一个代表性度量，例如依赖请求输出格式检查响应的度量或搜索期望组件的度量。在这里，更严格的度量优先于较宽松的度量。对于操作输出列表的度量，我们选择了去除前导和尾随空格的度量，因为这只是一个小修正。此外，对于生成RDF图或SPARQL查询的任务，包括指示其语法正确性的度量。

不同的计算度量可以分为三类：
核心这些格式敏感的答案质量度量评估答案的正确性，对指定的输出格式敏感，即假设尊重请求的格式来评估输出的准确性。它们包括listTrimF1、f1、strSimilarity 和 trimF1。

片段基于片段的答案质量度量评估答案的正确性，但在评估答案时对答案格式的要求较少严格，并考虑正确的答案部分。它们包括textHttpF1、contentF1 和 sparqllrisF1。

语法语法答案正确性度量检查输出是否语法正确，即是否满足所有有效的图形或查询的标准。parsableSyntax 和 answerParse 属于这一类别。

接下来，简要描述七个任务类别和为本次分析选定的度量。
表1
按模型系列分组的26个开放LLMs的模型大小。其中两个模型采用了专家混合架构（用*表示），即在推理过程中只有部分参数处于激活状态。

模型（系列）名称	模型大小 $=$ 参数数量
Qwen2-Instruct	0.5B	1.5B		7B			$57 B^{*}$	72B
Qwen2.5-Instruct	0.5B	1.5B	3B	7B	14B	32B		72B
Qwen2.5-Coder-Instruct						32B
Meta-LLama-3-Instruct				8B				70B
Meta-LLama-3.1-Instruct				8B				70B
Meta-LLama-3.2-Instruct		1B	3B					70B
Meta-LLama-3.3-Instruct								70B
Microsoft-Phi-3-instruct			3.8B	7B	14B
Microsoft-Phi-3.5-instruct			3.8B				$42 B^{*}$
Infly-OpenCoder-8B-Instruct				8B
deepseek-coder-33b-instruct						33B

更多信息可以在LLM-KG-Bench文档 ${ }^{4}$ 或介绍它们的文章中找到 $[10, 11, 12, 13]$ 。

RdfConnectionExplain 此任务包括在一个小型KG中找到两个节点之间的最短连接，这需要对序列化格式和RDF概念的基本理解。此任务有四种变体。每种变体都以不同的序列化格式呈现图：JSON-LD、N-Triples、Turtle 或 RDF/XML。这里的预期答案格式是一系列IRIs，代表最短路径。对于给定的答案，任务计算listTrimF1作为修剪列表项后的F1度量，去掉前导和尾随空格。textHttpF1度量是对类似IRI答案部分开始的F1度量，例如以"http: / / " 开头的部分。

RdfFriendCount 此任务展示了一个小型KG，节点和边各有一种类型。要求LLM返回具有最多传入边的节点。此任务有4种KG序列化格式变体：JSON-LD、N-Triples、Turtle 和 RDF/XML。任务在答案中找到的节点上计算 $f 1$ 度量。

RdfSyntaxFixing 提供了一个带有语法错误的KG，并要求LLM对其进行校正。引入了3种变体，序列化格式为JSON-LD、N-Triples 和 Turtle。如果答案中的RDF语法可解析，则parsableSyntax等于1（否则为0）。通过将给定的RDF与预期答案进行比较来计算strSimilarity，contentF1是在给定RDF图的三元组级别上的F1度量。

Sparql2Answer 在此任务中，LLM被要求根据给定的KG，对给定的SPARQL SELECT查询做出响应。此任务有两种变体，图序列化格式为JSON-LD 和 Turtle。答案应该是一个实体列表，trimF1度量计算为修剪实体后的F1度量，去掉了前导和尾随空格。

SparqlSyntaxFixing 类似于RdfSyntaxFixing任务，LLM被要求修复语法错误的SPARQL SELECT查询。如果调整后的SPARQL查询语法正确，则answerParse等于1（否则为0）。sparqllrisF1measure是在修改后的SPARQL查询中找到的IRIs的F1度量。 $f 1$ measure是指执行纠正后的SPARQL SELECT查询得到的结果集。

${ }^{4}$ 任务文档：https://github.com/AKSW/LLM-KG-Bench/blob/v3.0.0/LlmKgBench/tasks/README.md
Text2Answer 类似于Sparql2Answer任务，LLM被要求根据给定的小型KG对自然语言问题作出响应。有两个变体的图以JSON-LD和Turtle序列化格式呈现。类似于Sparql2Answer任务，答案应以列表形式呈现，trimF1度量在修剪后的列表元素上计算。

Text2Sparql 在此任务中，给出一个自然语言问题和KG的信息，LLM被要求将问题翻译成合适的SPARQL SELECT查询。有三种变体，KG以完整模式、相关模式或相关子图的形式呈现，全部使用Turtle语法。为此任务选择了与SparqlSyntaxFixing任务相同的度量：answerParse、sparqllrisF1measure 和 $f 1$ measure。
对于所有任务，提示保持相对简单，没有通过提示工程进行特别优化，以评估LLMs的基本能力。此外，我们避免使用高级提示技术，以防止某些模型在提示工程过程中获得不公平的优势。在下一节中，我们分析描述的数据集。

4. 结果分析

在本节中，我们报告并分析了基准运行的结果。首先，整体任务性能被检查以探索任务中心趋势（第4.1节）。其次，我们更仔细地查看模型大小对任务性能的影响，并阐明两个方面：不同大小类别之间的性能比较（第4.2节）和分数随模型大小和家族发展的分析（第4.3节）。

4.1. 整体任务性能

为了概览实验中包含的开放LLMs所达到的基准分数，表2列出了每种任务变体的所有LLM分数的均值和标准差。此外，还报告了个体LLM的均值分数以及LLM内部的最高和最低均值。

关于均值计算，源自不可解析的RDF或SPARQL输出的核心和片段度量的缺失值被填充为0，以反映这些输出甚至未能达到语法正确性的最低质量标准。对于允许对初始答案进行修正的任务（即多次Prompt-Answer-Evaluate循环），表中仅考虑最后一个答案的分数，因为首次和最后一次答案的所有分数的均值显示出仅有轻微差异。

接下来，我们将检查表2中列出的每种度量类型的分数。
关于核心度量的均值分数，它们在平均意义上属于中高水平，在SparqlSyntaxFixing、RdfConnectionExplain、Text2Answer、RdfSyntaxFixing和Sparql2Answer任务上接近0.6的分数。相比之下，RdfFriendCount的均值较低，介于0.06至0.29之间。对于Text2SPARQL任务，两种输入变体turtle schema和subschema也获得了低分0.13和0.10，而输入变体turtle subgraph则达到了相对较高的均值分数0.57。对于其他任务，输入变体之间的均值分数差异相对较小，RdfSyntaxFixing任务类中最低和最高均值之间的最大差异仅为0.25。此外，无法明显识别出任何特定KG格式（turtle、nt、jsonld、xml）的整体任务偏爱。

观察标准差，核心度量的分数分布广泛。大约20%的核心度量标准差在0.2到0.3之间，40%的标准差大于0.3到0.4，剩余40%的标准差大于0.4到0.5。这也反映在每个LLM的最低和最高平均核心度量分数中。最高的最低均值为0.12，而除了三个异常值外，最高均值为0.75或更高，大多数甚至接近或达到1。然而，对于RdfFriendCount任务的turtle输入变体，其最大值为0.47。
表2
该表格展示了按任务和任务变体分组的选定基准分数的数据。它展示了基本统计信息，包括均值、标准差（std）、最小值（min）和最大值（max），这是由特定LLM实现的。对于每种度量，提供了相应的类型。如果任务允许最多两次重试，则标记为(*)，并且给出了最后输出的分数。

任务	变体	度量	类型	均值	标准差	最小值	最大值
RdfConnectionExplain	jsonld	listTrimF1	核心	0.64	0.36	0.03	1.00
		textHttpF1	片段	0.71	0.30	0.03	1.00
	nt	listTrimF1	核心	0.51	0.34	0.02	0.95
		textHttpF1	片段	0.68	0.25	0.34	0.98
	turtle	listTrimF1	核心	0.68	0.32	0.08	1.00
		textHttpF1	片段	0.75	0.27	0.30	1.00
	xml	listTrimF1	核心	0.70	0.30	0.12	1.00
		textHttpF1	片段	0.77	0.23	0.42	1.00
RdfFriendCount	jsonld	f1	核心	0.17	0.37	0.00	1.00
	nt	f1	核心	0.17	0.37	0.00	1.00
	turtle	f1	核心	0.06	0.22	0.00	0.47
	xml	f1	核心	0.29	0.45	0.00	1.00
RdfSyntaxFixing *	jsonld	parsableSyntax	语法	0.81	0.39	0.00	1.00
		strSimilarity	核心	0.67	0.38	0.10	0.87
		contentF1	片段	0.78	0.40	0.00	1.00
	nt	parsableSyntax	语法	0.74	0.44	0.00	1.00
		strSimilarity	核心	0.61	0.43	0.08	1.00
		contentF1	片段	0.65	0.46	0.00	1.00
	turtle	parsableSyntax	语法	0.68	0.47	0.02	1.00
		strSimilarity	核心	0.42	0.34	0.10	0.90
		contentF1	片段	0.67	0.46	0.01	1.00
Sparql2Answer	jsonld	trimF1	核心	0.54	0.47	0.01	1.00
	turtle	trimF1	核心	0.58	0.47	0.01	1.00
SparqlSyntaxFixing *		answerParse	语法	0.68	0.47	0.00	1.00
		f1measure	核心	0.60	0.49	0.00	1.00
		sparqllrisF1measure	片段	0.66	0.46	0.00	1.00
Text2Answer	jsonld	trimF1	核心	0.57	0.48	0.02	1.00
	turtle	trimF1	核心	0.63	0.47	0.03	1.00
Text2Sparql *	turtle schema	answerParse	语法	0.72	0.45	0.00	1.00
		f1measure	核心	0.13	0.27	0.00	0.31
		sparqllrisF1measure	片段	0.30	0.30	0.00	0.53
	turtle subschema	answerParse	语法	0.74	0.44	0.06	1.00
		f1measure	核心	0.10	0.25	0.00	0.28
		sparqllrisF1measure	片段	0.35	0.29	0.01	0.57
	turtle subgraph	answerParse	语法	0.81	0.39	0.06	1.00
		f1measure	核心	0.57	0.45	0.00	0.93
		sparqllrisF1measure	片段	0.71	0.40	0.04	0.96

对于RdfFriendCount任务的turtle和xml输入变体，以及Text2SPARQL任务的turtle schema和turtle subschema输入变体，其最大LLM内均值分别为0.47、0.31和0.28，与其他均值差异显著。在所有这些情况下，这种情况也反映在较低的整体均值分数上。

片段度量显示出与核心度量相似的趋势。正如预期的那样，对于所有任务变体，它们的均值比核心度量更高。这也在LLM内的最小和最大均值中得到了反映。只有对于RdfSyntaxFixing任务，LLM的最小均值
低于核心度量的最小均值。值得注意的是，与核心度量不同，片段度量仅在输出图在语法上正确时才计算，否则它们为0。

最后但并非最不重要的是，RdfSyntaxFixing、SparqlSyntaxFixing和Text2Sparql任务的语法度量均值相当高，范围在0.68到0.81之间。然而，围绕均值的值分散相对较高，标准差在0.39到0.47之间。无一例外，最小LLM内均值接近或等于0，而最大值接近或等于1。

本小节概述了所有任务中的模型性能，以对任务类别及其变体进行分类。基于这一点，接下来的两个小节重点比较模型的大小，即训练参数基础上的答案质量。首先，在第4.2节中，比较了不同模型大小类别的任务性能，而在第4.3节中，根据模型大小视觉评估分数的总体发展和家族内部的发展。

4.2. 尺寸类别性能相似性

在以下分析中，仅包括核心度量，因为它们最准确地表明给定答案是否正确，同时也考虑了对请求输出格式的遵守。为了检查LLM大小是否影响任务性能，我们首先根据大小将LLMs分为四组。我们将模型分为tiny $[0 - 3 B]$ 、small $(3 B - 8 B]$ 、medium $(8 B - 33 B]$ 和 large $(33 B - 72 B]$ 四个尺寸类别。随后，为了评估不同LLM尺寸组之间是否存在显著差异的核心基准分数，我们对每种任务变体进行了Kruskal-Wallis检验 [28]，零假设为所有组的分数分布相同。对于所有进行的测试，零假设都被拒绝，显著性水平小于0.001，表明对于所有任务变体，模型尺寸组之间存在显著差异。RdfConnectionExplain $x m l$ 变体获得了最高的显著性水平 $\mathrm{p} \approx 5 \epsilon-12$ ，而Text2Sparql turtle subschema变体获得了最低的显著性水平 $\mathrm{p} \approx 7 \epsilon-122$ ，这表明各组之间存在高度显著的差异。

由于Kruskal-Wallis检验仅测量一组组之间的显著差异，接下来进行了Bonferroni校正 [30] 的事后Dunn检验 [29]，以检查哪些组不相似。再次，零假设为组对之间没有差异。表3显示了每种任务变体的事后检验结果。对于显著性为 $\%$ 或更低的不同组对为空白。对于所有未分类为不相似的组对，提供了 $p$ 值。该值越高，组越相似。此外，表左侧提供了每种模型尺寸组的均值分数作为参考。标准差 $(0.3, 0.4]$ 的组标记为 $\sim$ ，标准差 $(0.4, 0.5]$ 的组标记为 $\approx$ 。所有其他组的标准差为0.3或更低。

总体而言，正如预期的那样，大多数比较显示，在 $\%$ 的显著性水平下，相应组对之间存在差异，即它们各自的分数显著不同（零假设被拒绝）。除了六个不相似的组对外，其余差异也非常显著， $p < 0.001$ 。通常，识别出的显著分数差异与包含较小LLMs的组到包含较大模型大小的组分数上升相关。然而，RdfFriendCount任务的turtle和xml输入变体意外地显示从较小组到较大型组分数下降。此外，与假设相悖的是，也有一些组对未发现显著差异。对于这些组，表3中给出了 $p$ 值。较高的值表明就任务性能而言，尺寸类别可以被认为更相似。对于中型和大型组对，这适用于大约一半的情况。大多数情况下，两组的平均分数都很高，即发生了天花板效应。在三种情况下，对于RdfFriendCount nt、Text2Sparql turtle schema和Text2Sparql turtle subschema任务变体，总体分数较低并显示平台效应，即它们没有显著变化，因此未检测到显著差异。第二高无关分数差异的组对是中小型组对，有五种情况。这里主要发生了平台效应。类似地，三分之三的无关分数差异发生在微型和小型组对之间，这些也是平台效应。与此相反，
表3
该表显示了每种模型尺寸组的核心度量均值分数和组间相似性。模型按尺寸组分为tiny $(t, [0 - 3 B])$ 、small $(s, (3 B - 8 B])$ 、medium $(m, (8 B - 33 B])$ 和 large $(l, (33 B - - - - - - - 72 B])$ 。对于标准差高的均值分数（0.3 到 0.4）标记为 $\sim$ ，对于标准差非常高的（0.4 到 0.5）标记为 $\approx$ 。在其他情况下，组间显示出统计显著差异。较高的 $p$ 值表示更相似的组。

| 任务 | 变体 | 每种模型尺寸组的均值分数 | | | | 组间相似性 | | | |
| :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: |
| | | t | s | m | l | $\leftrightarrow s$ | $\leftrightarrow m$ | $\leftrightarrow l$ | $\leftrightarrow m$ | $\leftrightarrow l$ |
| RdfConnection Explain | jsonld | $\sim 0.41$ | 0.61 | $\sim 0.75$ | 0.87 | | | | | |
| | nt | $\sim 0.39$ | 0.51 | 0.49 | $\sim 0.68$ | | 0.07 | | 1.00 | |
| | turtle | $\sim 0.50$ | 0.59 | 0.82 | 0.87 | | | | | 0.13 |
| | xml | 0.53 | 0.60 | 0.79 | 0.93 | 0.09 | | | | |
| RdfFriend
Count | jsonld | 0.09 | 0.09 | 0.06 | $\approx 0.41$ | 1.00 | 1.00 | 1.00 | | |
| | nt | 0.04 | $\sim 0.13$ | $\approx 0.26$ | $\approx 0.32$ | | | | | 1.00 |
| | turtle | 0.05 | 0.03 | $\sim 0.18$ | 0.01 | 1.00 | | | | |
| | xml | $\approx 0.31$ | $\sim 0.11$ | 0.07 | $\approx 0.57$ | | | 1.00 | | |
| RdfSyntax
Fixing | jsonld | $\approx 0.59$ | $\approx 0.68$ | 0.98 | 0.96 | | | | | 1.00 |
| | nt | $\approx 0.36$ | $\approx 0.61$ | $\sim 0.86$ | 0.91 | | | | | 0.60 |
| | turtle | $\approx 0.34$ | $\approx 0.66$ | 0.95 | 0.92 | | | | | 1.00 |
| Sparql2Answer | jsonld | $\sim 0.25$ | $\approx 0.42$ | $\approx 0.75$ | $\sim 0.88$ | | | | | |
| | turtle | $\sim 0.24$ | $\approx 0.54$ | $\sim 0.76$ | 0.92 | | | | | |
| SparqlSyntax
Fixing | | $\approx 0.25$ | $\approx 0.50$ | $\sim 0.86$ | 0.95 | | | | | 0.12 |
| Text2Answer | jsonld | $\approx 0.26$ | $\approx 0.50$ | $\approx 0.73$ | 0.92 | | | | | |
| | turtle | $\approx 0.28$ | $\approx 0.64$ | $\approx 0.76$ | 0.97 | | | | | |
| Text2Sparql | schema | 0.04 | 0.13 | 0.15 | $\sim 0.23$ | | | 1.00 | | 0.21 |
| | subschema | $\sim 0.04$ | $\approx 0.12$ | 0.16 | 0.13 | | | 1.00 | 1.00 | 0.34 |
| | subgraph | 0.19 | 0.58 | 0.84 | 0.86 | | | | | 1.00 |

总体而言，最常观察到的效果是平均分数从小型到大型模型组的上升。值得注意的例外是RdfFriendCount任务变体中的turtle和xml，对于这些变体，小型和大型模型组之间的分数显著下降。除此之外，还发生了平台效应，即相邻组之间的分数没有显著变化。然而，在某些情况下，这种平台效应仅局部发生，并且特别在中型和大型组之间可以检测到分数的上升（例如RdfFriendCount jsonld或RdfConnectionExplain nt）。对于某些任务变体，中型和大型组的分数几乎达到了1的上限。

4.3. 按模型大小和家族的任务性能

作为对上一节的补充，图1显示了每种任务类别下LLM相对于其大小的核心度量平均分数。此外，虚线连接了同一家族的LLM。对于Text2Sparql和RdfFriendCount任务，图表再次暴露了所包含LLM的整体较差表现。此外，之前发现的其他模式在图中也可见。因此，整体分数随模型大小上升的趋势明显。此外，还可以看到平台和天花板效应。

此外，从图表中可以获得额外的见解。为了参考，图表还以红色水平线显示了基准运行中包含的专有模型实现的最高平均分数。在这里，我们看到，除了Text2Sparql任务外，最佳专有LLM始终达到0.99或1.00的平均分数。因此，除RdfFriendCount任务外，最佳表现的专有模型与最佳表现的开源
LLM相当。特别是tiny $[0 - 3 B]$ 和 small $(3 B - 8 B]$ 模型的平均分数差异很大。
此外，对于大多数任务，最高的分数增长发生在tiny到较小medium-sized模型范围内的模型中，大约为13B。通常，对于表现出天花板效应的任务，一些较小的模型，大约8B或14B，已经达到了平均0.8或更高的分数。这里，尤其是8和14B的Qwen2.5模型表现突出。

两个包含的专家混合（MoE）LLM，即Phi-3.5-MoE-instruct（42B参数，其中6.6B活跃）和Qwen2-57B-A14B-Instruct（57B参数，其中14B活跃），对于大多数任务，得分类似于使用所有参数进行推理时具有类似总参数数量的模型。尽管如此，仍有总参数数量较低但在MoE模型活跃参数数量范围内的模型表现相当。

此外，代码专业化的模型，如Qwen2.5-Coder（32B）、OpenCoder（8B）和Deepseek-Coder（33B），在RdfSyntaxFixing、SparqlSyntaxFixing和Text2Sparql任务上的表现大致相同或在少数情况下略好于同样大小的LLM，这些任务都生成一个RDF图或一个SPARQL查询。在这里，DeepSeek-Coder和Qwen2.5-Coder的表现类似于表现最好的开放模型，但这也适用于一些非代码专业化的模型。
对于其他任务，除了RdfFriendCount任务外，Qwen2.5-Coder的表现也与同规模的模型相似或稍好。相反，DeepSeek-Coder和OpenCoder在不生成KG或SPARQL查询的任务上表现不如其他同规模的模型。

在接下来的段落中，我们将根据模型大小查看不同家族内部和跨家族的基准分数发展情况。

同一家族的模型也反映了总体上随着模型大小增加分数上升的趋势。此外，家族中最大的模型通常是表现最好的。然而，在家族层面，偶尔也会出现大小相邻的较小和较大模型之间的任务表现下降的情况。这些较大模型表现下降的情况通常只保持局部性，家族中下一个更大的模型往往比下降前的模型表现出更高或至少稳定的任务表现。全球性的家族覆盖饱和效应，即天花板和平台效应，也可见，特别是在涵盖所有尺寸带的众多模型家族中。

在不同的家族之间，有时随着模型尺寸的增加，分数发展相似且几乎平行。然而，一般来说，随着模型尺寸的增加，分数发展的清晰全局平行性并不明显。

5. 讨论

在本节中，我们总结并讨论了我们的分析关键见解，每个段落涵盖不同的见解。

较大的模型通常比小模型获得更高的分数，但存在平台和天花板效应。在尺寸类别分析中，我们看到大多数情况下，正如预期的那样，较大的模型尺寸组通常获得显著更高的基准分数（另见表3）。对于较容易的任务，特别是中型和大型类别对获得了类似的高分。因此，在这种情况下，中型模型可能是优化成本效益的好选择。相比之下，特别是对于更困难的任务，出现了平台效应。有些只是局部的，较大的模型获得了比平台范围内模型显著更高的分数。因此，考虑检测到的局部平台并选择更大的LLM是有意义的，因为即使成本增加，性能也显著提高。对于尚未接近最大分数并扩展到大型模型的全局平台，使用较小的模型也可能有意义，因为它节省了成本并且不会显著影响任务性能。

一些较小的模型也表现得相当好。然而，个体小模型之间的表现差异较大。此外，图1也确认了一些小（8B）或中等规模（13B）模型可能是一个不错的选择，因为它们已经取得了相当高的分数。然而，必须明确测试同一尺寸带内的个别模型，因为它们的表现也有所不同。然而，这些见解有助于指导整体模型搜索，并表明是否考虑某个尺寸带内的模型似乎有希望或可能。

在同一家族的小型和大型模型之间可能会出现性能下降。此外，在模型家族内，我们再次看到局部任务性能下降可能会出现在较小和较大的成员之间。因此，建议也要研究家族内按大小相邻的模型。

所检查的开放LLM无法很好地应对RdfFriendCount和Text2Sparql任务。除了指导开放LLM内的模型选择外，结果还表明，截至2024年12月，最先进的开放LLM参数数量最多达70B，无法很好地应对RdfFriendCount和Text2Sparql任务。这里，任务可能需要更大的模型。对于RdfFriendCount任务，基准运行中包含的一个专有LLM获得了0.99或1.00的中心平均分数。因此，当前的专有模型可以很好地处理该任务，而相比之下，较大的开放LLM则无法做到。然而，对于Text2Sparql任务，即使是专有LLM也没有取得实质上更高的平均分数。这里，表现最好的模型仅获得0.49的平均分数，表明识别出的平台效应甚至延续到更大规模的专有模型。

检查过的代码专用模型在要求KG或SPARQL查询的任务上表现更好。与其他任务相比，特别是DeepseekCoder和OpenCoder在RdfSyntaxFixing、SparqlSyntaxFixing和Text2Sparql任务上的表现优于其他任务。

检查的专家混合（MoE）模型相较于MoE的活跃参数计数模型没有表现出优越性能。查看各个任务的模型分数，MoE LLM Phi-3.5-MoE-instruct和Qwen2-57B-A14B-Instruct的性能大多与具有类似总参数计数的模型相当。然而，大小在MoE模型活跃参数范围内的模型表现也类似。因此，对于给定任务，考虑到成本效益，选择这些较小模型而非MoE模型是有意义的。

6. 结论

在本文中，我们分析了开放LLM在LLM-KG-Bench基准运行中的知识图谱工程相关任务的得分，重点关注模型大小与所得得分的相关性。总体而言，我们看到，正如预期的那样，通常模型越大，得分越高。然而，我们的分析还显示了平台和天花板效应，在这些效应中，较小和较大模型之间的得分差异不大。因此，对于相对简单的任务，较小的模型已经取得了合理的高分。因此，对于复杂程度相似的任务，也应考虑较小的模型。对于RdfFriendCount和Text2Sparql任务，基准得分总体较低，平台效应延伸至所分析的最大模型。由此我们可以得出结论，最先进的开放LLM的能力尚不足以解决这种复杂程度的任务。虽然RdfFriendCount任务可以通过更大规模的专有模型解决，但对于Text2Sparql任务，平台效应继续存在，可能需要更大规模的模型才能充分解决此任务。

对于未来的工作，我们认为对于类似的基准运行，类似的分析有助于概述SOTA模型的状态，但也能够得出可推广的见解，帮助判断新引入的模型或未参与基准运行的模型是否值得考虑。此外，还有兴趣考察其他与缩放定律相关的因素，如训练数据、训练步数以及与模型架构相关的因素。这将允许进一步检查和可能解释本工作中显现的效果，如相似规模模型之间的性能差异或较大模型相对于较小模型属于同一模型系列的性能下降。此外，有意义的是通过增加现有任务的更复杂变体来扩展LLM-KG Bench框架，以便了解在更困难的情况下中型模型是否仍然能与大型模型相媲美。此外，受代码专业化LLM倾向于需要KG或SPARQL查询作为输出的任务的启发，探索特定任务所需的特定能力以及为什么某些任务似乎特别具有挑战性将是未来有意义的贡献，以指导针对性解决方案。

致谢

这项工作部分得到了德国联邦教育和研究部 (BMBF) 对 ScaleTrust (16DTM312D) 和 KupferDigital2 (13XP5230L) 项目的资助，以及德国联邦经济事务和气候行动部 (BMWK) 对 KISS 项目 (01MK22001A) 的资助。

关于生成式AI的声明

在准备本工作的过程中，作者使用了ChatGPT4o和ChatGPT4.5-RP：进行语法和拼写检查、改写和重新措辞以改进写作风格。使用这些工具/服务后，作者审查并根据需要编辑了内容，并对出版物的内容承担全部责任。

参考文献

[1] A. Hogan, E. Blomqvist, M. Cochez, C. d’Amato, G. de Melo, C. Gutierrez, J. E. L. Gayo, S. Kirrane, S. Neumaier, A. Polleres, R. Navigli, A.-C. N. Ngomo, S. M. Rashid, A. Rula, L. Schmelzeisen, J. Sequeda, S. Staab, A. Zimmermann, 知识图谱, ACM Computing Surveys (CSUR) 54 (2020) $1 - 37$ . doi:10.1145/3447772.
[2] S. Pan, L. Luo, Y. Wang, C. Chen, J. Wang, X. Wu, 统一大型语言模型和知识图谱：路线图, IEEE Transactions on Knowledge and Data Engineering (TKDE) (2024). doi:10.1109/TKDE. 2024.3352100.
[3] B. P. Allen, L. Stork, P. Groth, 使用大型语言模型的知识工程 (2023). doi:10.4230/TGDK.1.1.3.
[4] R. Buchmann, J. Eder, H.-G. Fill, U. Frank, D. Karagiannis, E. Laurenzi, J. Mylopoulos, D. Plexousakis, M. Y. Santos, 大型语言模型：语义驱动系统工程的期望, Data and Knowledge Engineering 152 (2024) 102324. doi:10.1016/j.datak.2024.102324.
[5] T. A. Taffa, R. Usbeck, 在学术知识图谱问答中利用LLMs (2023). doi:10.48550/ARXIV. 2311.09841.
[6] M. Hofer, J. Frey, E. Rahm, 利用LLMs实现自配置知识图谱构建管道——基于RML的案例研究, in: 第五届知识图谱构建国际研讨会 @ ESWC2024, CEUR Workshop Proceedings 卷3718, CEUR-WS.org, 2024. URL: https://ceur-ws.org/Vol-3718/paper6.pdf.
[7] L. Kovriguina, R. Teucher, D. Radyush, D. Mouromtsev, Sparqlgen: 基于单次提示的方法生成SPARQL查询, in: 语义系统国际会议, CEUR Workshop Proceedings 卷3526, CEUR-WS.org, 2023. URL: https://ceur-ws.org/Vol-3526/ paper-08.pdf.
[8] H. Babaei Giglou, J. D’Souza, S. Auer, LLMs4OL: 用于本体学习的大规模语言模型, Springer Nature Switzerland, 2023, pp. 408-427. doi:10.1007/978-3-031-47240-4_22.
[9] L.-P. Meyer, J. Frey, K. Junghanns, F. Brei, K. Bulert, S. Gründer-Fahrer, M. Martin, 开发用于知识图谱工程评估大规模语言模型的可扩展基准, in: N. Keshan, S. Neumaier, A. L. Gentile, S. Vahdati (Eds.), 第19届国际语义系统会议 (SEMANTICS 2023) 海报和演示轨道论文集, CEUR Workshop Proceedings 卷3526, CEUR-WS.org, 2023. URL: https://ceur-ws.org/Vol-3526/paper-04.pdf.
[10] L.-P. Meyer, J. Frey, D. Heim, F. Brei, C. Stadler, K. Junghanns, M. Martin, LLM-KG-Bench 3.0: 在大规模语言模型海洋中导航语义技术能力的指南针, in: ESWC 2025 资源轨道论文集, 2025. 已接受发表.
[11] J. Frey, L. Meyer, N. Arndt, F. Brei, K. Bulert, 针对RDF知识图创建和理解的大规模语言模型能力基准测试：LLMs如何说Turtle？, in: M. Alam, M. Cochez (Eds.), 深度学习知识图谱研讨会 (DL4KG 2023) 论文集，与第21届国际语义网会议 (ISWC 2023) 同地举行，雅典，2023年11月6日至10日，CEUR Workshop Proceedings 卷3559, CEUR-WS.org, 2023. URL: https://ceur-ws.org/Vol-3559/paper-3.pdf.
[12] J. Frey, L.-P. Meyer, F. Brei, S. Gruender, M. Martin, 评估2023年大规模语言模型在知识图谱工程中的能力演变, in: 扩展语义网会议2024 (ESWC24) 特别轨道大型语言模型在知识工程中的应用论文集, 2024. doi:10.1007/978-3-031-78952-6_5.
[13] L.-P. Meyer, J. Frey, F. Brei, N. Arndt, 评估大规模语言模型的SPARQL能力, in: E. Vakaj, S. Iranmanesh, R. Stamartina, N. Mihindukulasooriya, S. Tiwari, F. Ortiz-Rodríguez, R. Mcgranaghan (Eds.), 与第20届国际语义系统会议 (SEMANTiCS 2024) 同地举行的第三届自然语言处理创建知识图谱国际研讨会论文集, CEUR Workshop Proceedings 卷3874, 2024, p. 35-53. URL: https://ceur-ws.org/Vol-3874/paper3.pdf.
[14] J. Kaplan, S. McCandlish, T. Henighan, T. B. Brown, B. Chess, R. Child, S. Gray, A. Radford, J. Wu, D. Amodei, 神经语言模型的缩放法则 (2020). arXiv:2001.08361.
[15] W.-L. Chiang, L. Zheng, Y. Sheng, A. N. Angelopoulos, T. Li, D. Li, H. Zhang, B. Zhu, M. Jordan, J. E. Gonzalez, I. Stoica, Chatbot Arena: 一个通过人类偏好评估LLMs的开放平台, 2024. arXiv:2403.04132.
[16] C. Fourrier, N. Habib, A. Lozovskaya, K. Szafer, T. Wolf, Open LLM Leaderboard v2, https: //huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard, 2024.
[17] P. Liang, R. Bommasani, T. Lee, D. Tsipras, D. Soylu, M. Yasunaga, Y. Zhang, D. Narayanan, Y. Wu, A. Kumar, B. Newman, B. Yuan, B. Yan, C. Zhang, C. Cosgrove, C. D. Manning, C. Ré, D. AcostaNavas, D. A. Hudson, E. Zelikman, E. Durmus, F. Ladhak, F. Rong, H. Ren, H. Yao, J. Wang, K. Santhanam, L. Orr, L. Zheng, M. Yuksekgonul, M. Suzgun, N. Kim, N. Guha, N. Chatterji, O. Khattab, P. Henderson, Q. Huang, R. Chi, S. M. Xie, S. Santurkar, S. Ganguli, T. Hashimoto, T. Icard, T. Zhang, V. Chaudhary, W. Wang, X. Li, Y. Mai, Y. Zhang, Y. Koreeda, 大规模语言模型的全面评估, 2023. arXiv:2211.09110.
[18] J. Liu, C. S. Xia, Y. Wang, L. Zhang, 您的代码真的由ChatGPT生成吗？大规模语言模型生成代码的严格评估, Advances in Neural Information Processing Systems 36 (2024).
[19] L.-P. Meyer, C. Stadler, J. Frey, N. Radtke, K. Junghanns, R. Meissner, G. Dziwis, K. Bulert, M. Martin, LLM辅助的知识图谱工程：ChatGPT实验, in: C. Zinke-Wehlmann, J. Friedrich (Eds.), 第一届人工智能开发为可持续明天会议 (AITomorrow) 2023, Informatik aktuell, 2023, pp. 101-112. doi:10. 1007/978-3-658-43705-3_8.
[20] N. Mihindukulasooriya, S. Tiwari, C. F. Enguix, K. Lata, Text2KGBench: 一种用于从文本生成知识图谱的本体驱动基准测试, in: T. R. Payne, V. Presutti, G. Qi, M. Poveda-Villalón, G. Stoilos, L. Hollink, Z. Kaoudi, G. Cheng, J. Li (Eds.), 语义网 - ISWC 2023, Springer Nature Switzerland, Cham, 2023, pp. 247-265.
[21] Y. Zhu, X. Wang, J. Chen, S. Qiao, Y. Ou, Y. Yao, S. Deng, H. Chen, N. Zhang, 大规模语言模型在知识图谱构建和推理中的最新能力和未来机遇, 2023. arXiv:2305.13168.
[22] R. Usbeck, M. Röder, M. Hoffmann, F. Conrads, J. Huthmann, A.-C. Ngonga-Ngomo, C. Demmler, C. Unger, 问答系统基准测试, Semantic Web 10 (2019) 293-304. doi:10. 3233/sw-180312.
[23] H. M. Zahera, M. Ali, M. A. Sherif, D. Moussallem, A. N. Ngomo, 使用思维链提示从自然语言生成SPARQL, in: A. A. Salatino, M. Alam, F. Ongenae, S. Vahdati, A. L. Gentile, T. Pellegrini, S. Jiang (Eds.), 语言模型和神经符号AI时代的知识图谱 - 第20届国际语义系统会议论文集, 2024年9月17日至19日，荷兰阿姆斯特丹，Studies on the Semantic Web卷60, IOS Press, 2024, pp. 353-368. URL: https://doi.org/10.3233/SSW240028. doi:10.3233/SSW240028.
[24] C. Shorten, C. Pierse, T. B. Smith, E. Cardenas, A. Sharma, J. Trengrove, B. van Luijt, Structuredrag: 大规模语言模型的JSON响应格式化, 2024. arXiv:2408.11061.
[25] A. Srivastava, et al., 超越模仿游戏：量化和外推语言模型的能力, 机器学习研究交易 (2023). arXiv:2206.04615.
[26] J. Wei, Y. Tay, R. Bommasani, C. Raffel, B. Zoph, S. Borgeaud, D. Yogatama, M. Bosma, D. Zhou, D. Metzler, E. H. Chi, Q. V. Le, 大规模语言模型的新兴能力, 机器学习研究交易 (2022). arXiv:2206.07682.
[27] J. Hoffmann, S. Borgeaud, A. Mensch, E. Buchatskaya, T. Cai, E. Rutherford, D. de Las Casas,
L. A. Hendricks, J. Welbl, A. Clark, T. Hennigan, E. Noland, K. Millican, G. van den Driessche, B. Damoc, A. Guy, S. Osindero, K. Simonyan, E. Elsen, J. W. Rae, O. Vinyals, L. Sifre, 训练计算最优的大规模语言模型 (2022). arXiv:2203.15556.
[28] W. H. Kruskal, W. A. Wallis, 单变量方差分析中秩的使用, 美国统计协会杂志 47 (1952) 583-621.
[29] O. J. Dunn, 使用秩和的多重比较, 技术计量学 6 (1964) 241-252.
[30] C. E. Bonferroni, Il calcolo delle assicurazioni su gruppi di teste, 1935, pp. 13-60.