论文翻译：EMNLP-2023 FACTSCORE: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Gen-CSDN博客

本文链接：https://blog.csdn.net/WhiffeYF/article/details/145708257

文章目录

摘要
1 引言
2 相关工作
3 FACTSCORE：评估长文本生成的事实精度
4 自动评估中估算 FACTSCORE
5 结论和未来工作
限制

FACTSCORE：长文本生成中事实精度的细粒度原子级评估
FACTSCORE: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation
https://aclanthology.org/2023.emnlp-main.741.pdf

摘要

评估大型语言模型（LMs）生成的长文本的事实性并非易事，因为（1）生成内容通常包含支持和不支持的信息片段，使得二元质量判断显得不足，以及（2）人工评估耗时且成本高昂。在本文中，我们介绍了 FACTSCORE，这是一种新的评估方法，它将生成内容分解为一系列原子事实，并计算由可靠知识源支持的原子事实的百分比。我们进行了广泛的人工评估，以获取由几种最先进的商业语言模型（InstructGPT、ChatGPT 和检索增强型 PerplexityAI）生成的人物传记的 FACTSCORE，并报告了新的分析结果，证明了这种细粒度评分的必要性（例如，ChatGPT 的得分为 58%）。由于人工评估成本较高，我们还引入了一个自动化模型，该模型通过检索和强大的语言模型来估计 FACTSCORE，误差率低于 2%。最后，我们使用这一自动化指标评估了来自 13 种最新语言模型的 6500 个生成样本，如果由人工评估，成本将高达 26000 美元。研究发现：GPT-4 和 ChatGPT 比公开模型更具事实性，而 Vicuna 和 Alpaca 是表现最好的公开模型之一。FACTSCORE 可通过 pip install factscore 公开使用。

1 引言

大型语言模型（LMs）生成的长文本已被广泛使用（Brown 等人，2020；Ouyang 等人，2022），然而，评估其事实精度——即生成内容中每条信息是否在事实上准确——仍然面临两大挑战。首先，生成内容包含大量信息片段，这些片段真假参半，使得二元判断显得不足（Pagnoni 等人，2021）。其次，验证每条信息耗时且成本高昂。

在这里插入图片描述

图 1：FACTSCORE 的概述，即由给定知识源支持的原子事实（信息片段）的比例。FACTSCORE 允许对事实精度进行更细粒度的评估，例如在图中，顶部模型得分为 66.7%，底部模型得分为 10.0%，而以往的研究会将两者都评为 0.0。FACTSCORE 可以基于人工评估，也可以自动化，从而无需人工努力即可评估大量语言模型。

在本文中，我们介绍了 FACTSCORE（原子性事实精度评分），这是一种新的语言模型（LM）评估方法，表示由给定知识源支持的原子事实（信息片段）的百分比。计算 FACTSCORE 涉及（1）将生成内容分解为一系列原子事实——每个包含一条信息的简短陈述（Nenkova 和 Passonneau，2004；Shapira 等人，2019；Zhang 和 Bansal，2021；Liu 等人，2022），以及（2）为每个原子事实分配二元标签，从而实现对事实精度的细粒度评估。我们在生成人物传记的任务上评估 FACTSCORE，因为生成内容由可验证的陈述组成，而不是有争议或主观的陈述，并且范围广泛（即涵盖多种国籍、职业和稀有程度）。
我们进行了广泛的人工标注，以获取三种最先进的商业语言模型的 FACTSCORE：InstructGPT（Ouyang 等人，2022）、ChatGPT（OpenAI，2022）和搜索增强型 PerplexityAI。我们的结果显示，商业语言模型存在大量错误，其 FACTSCORE 分别为 42%、58% 和 71%。随着实体稀有程度的增加，它们的 FACTSCORE 显著下降，例如 ChatGPT 从 80% 降至 16%。
由于人工评估成本高昂，我们接下来介绍了一种通过模型自动评估 FACTSCORE 的方法。我们的估计器将生成内容分解为原子事实，并根据给定的知识源验证每一个，利用从知识源检索信息和强大的语言模型。我们的估计器能够以小于 2% 的误差率近似 FACTSCORE，并且可以大规模应用于新的语言模型，无需人工努力。我们的案例研究评估了来自 13 种语言模型的 6500 个生成样本，这本可能需要花费 26000 美元。研究发现：GPT-4（OpenAI，2023）和 ChatGPT 的事实性远低于人类，但比公开模型要好得多，而公开模型之间存在较大差异，其中 Vicuna（Chiang 等人，2023）和 Alpaca（Taori 等人，2023）是表现最好的模型之一。
总结来说，我们的贡献如下。

我们引入了 FACTSCORE，通过将语言模型的生成内容分解为原子事实并针对给定知识源进行验证，从而对语言模型的事实精度进行新的评估。人工评估揭示了有搜索功能和无搜索功能的最先进的语言模型的 FACTSCORE 均较低。
我们引入了一个模型，该模型能够以小于 2% 的误差率近似 FACTSCORE，从而无需人工手动评估即可对大量新的语言模型进行评估。
我们开源了 FACTSCORE 和标注数据，供公众使用，可通过 pip install factscore 获取。我们建议未来的研究扩展 FACTSCORE 以涵盖更广泛的生成内容（例如开放式生成），并进一步改进估计器。

2 相关工作

文本生成中的事实精度。文本生成中的事实精度一直是自然语言处理领域的研究热点。大多数先前的研究关注特定问题（如对话）的监督模型的事实精度（Shuster 等，2021），或者专注于带简短答案的问题回答（Kadavath 等，2022；Kandpal 等，2022；Mallen 等，2023；Nori 等，2023）。

最近的研究开始关注超出简短答案的文本生成的事实精度。Lee 等（2022）使用代理指标评估事实精度，例如生成内容中的命名实体是否出现在主题相关的文章中。一系列同期工作验证了模型提供的引用（归属）的精确性（Gao 等，2022；Liu 等，2023a；Yue 等，2023；Gao 等，2023）。Manakul 等（2023）的同期工作无需使用知识源即可自动化识别语言模型生成中的事实错误；我们在第 4 节中将其方法用作基线估计器。与之相比，我们的工作（1）考虑了来自多种最先进的语言模型（带搜索和不带搜索）的更长文本生成，（2）通过人类专家和接近人类水平的自动化评估器对其进行细粒度评估，并（3）将其应用于大量语言模型。

事实验证。我们的工作与事实验证的先前研究密切相关（Thorne 等，2018；Wadden 等，2020），这些研究会自动将声明句子与维基百科或科学文献等大型知识源进行核对。大多数文献假设存在单一的原子声明，有时会结合上下文进行建模（Nakov 等，2018；Mihaylova 等，2019；Shaar 等，2022）。也有研究通过将较长句子或文本分解为原子事实来进行验证（Fan 等，2020；Wright 等，2022；Chen 等，2022；Kamoi 等，2023），我们从中获得启发。事实验证文献与我们的工作之间的主要区别在于，我们关注模型生成的长文本，而不是人类编写的句子级声明。

基于模型的评估。先前的研究使用学习模型来定义自动化评估分数（Zhang 等，2020；Liu 等，2023b）。这包括在摘要中基于模型的评估，通过问答或自然语言推理来考虑摘要与源文档之间的一致性（Kryscinski 等，2020；Wang 等，2020；Fabbri 等，2022；Deutsch 等，2021；Laban 等，2022）。我们从这些工作中获得启发，并通过考虑信息片段是否得到大型文本语料库的支持来评估语言模型生成的事实精度。

3 FACTSCORE：评估长文本生成的事实精度

我们引入了 FACTSCORE，这是一种新的语言模型（LM）评估方法，考虑了 LM 生成的原子事实的事实精度。我们进行人工评估以计算最先进 LM 的 FACTSCORE（第 3.3 节）并讨论结果（第 3.4 节）。FACTSCORE 允许对事实精度进行严格和细粒度的评估，但耗时且成本高，这促使我们在第 4 节进行自动化评估。

3.1 定义

FACTSCORE 基于两个关键思想。
关键思想 1：原子事实作为单位。长文本由许多信息片段组成，每个片段可以是真或假。先前的研究探索了使用句子作为单位；然而，即使是单个句子也是支持和不支持事实的混合体，例如，在 ChatGPT 的情况下有 40% 的情况。先前和同期的研究要么（1）定义了一个额外的部分支持标签（Manakul 等人，2023；Liu 等人，2023a），其定义可能是主观的，并可能导致一致性较低，或者（2）采取最严格的支持定义，要求每条信息都必须得到支持（Rashkin 等人，2021；Gao 等人，2022），这忽略了部分支持的情况，例如，即使第一个生成的内容比第二个更准确，也会在图 1 中将两者都评为 0.0。
在本文中，我们将原子事实定义为传递一条信息的简短句子（图 1 中的例子），类似于摘要内容单元（Nenkova 和 Passonneau，2004）。原子事实是比句子更基本的信息单位，并提供了更细粒度的评估，例如，在图 1 中，将第一个生成内容的评分高于第二个。
关键思想 2：事实精度作为给定知识源的函数。先前的研究通常将事实精度视为单一的全球真理（Manakul 等人，2023）。相比之下，我们采取的观点是，陈述的真实性应取决于最终用户认为值得信赖和可靠的特定知识源。因此，我们不是考虑一个原子事实是否在全球范围内为真或假，而是考虑它是否得到给定知识源的支持。这已在事实验证文献中使用（Wadden 等人，2022），在不同来源之间的信息冲突相对常见。

定义。设 $\mathcal{M}$ 为待评估的语言模型， $\mathcal{X}$ 为提示集， $\mathcal{C}$ 为知识源。考虑对于 $\in \mathcal{X}$ 的响应 $\mathcal{M}_x$ 以及 $y$ 中的原子事实列表 $\mathcal{A}_y$ 。 $\mathcal{M}$ 的 FACTSCORE 定义如下：

$\frac{1}{|\mathcal{A}_y|} \sum_{a \in \mathcal{A}_y} \mathbb{I}[a \text{ is supported by } \mathcal{C}]$

$\text{FACTSCORE}(\mathcal{M}) = \mathbb{E}_{x \in \mathcal{X}} [f(\mathcal{M}_x) | \mathcal{M}_x \text{ responds}]$

其中， $\mathcal{M}_x \text{ responds}$ 表示 $\mathcal{M}$ 没有拒绝响应提示 $x$ 。。此定义假设以下内容：

一个原子事实是否得到 ( \mathcal{C} ) 的支持是无可争议的。
每个原子事实在 ( \mathcal{A}_y ) 中具有同等的重要性，遵循 Krishna 等人（2023）的方法。
( \mathcal{C} ) 中的信息片段不会相互冲突或重叠。

在本文的其余部分，我们提议使用人物传记作为 ( \mathcal{X} ) 和维基百科作为 ( \mathcal{C} )，因为它们在合理程度上满足这些假设（第 3.3 节）。我们将在限制部分更详细地讨论这些假设在何种情况下成立或可能不成立。

FACTSCORE 考虑精确度但不包括召回率，例如，一个模型如果经常拒绝回答或生成包含较少事实的文本，可能会有一个更高的 FACTSCORE，即使这些并不是我们所期望的。我们将事实召回率的评估留待未来的工作（在限制部分有更多讨论）。

设 $\mathcal{M}$ 为待评估的语言模型， $\mathcal{X}$ 为提示集， $\mathcal{C}$ 为知识源。考虑对于 $\in \mathcal{X}$ 的响应 $\mathcal{M}_x$ 以及 $y$ 中的原子事实列表 $\mathcal{A}_y$ 。 $\mathcal{M}$ 的 FACTSCORE 定义如下：

$\frac{1}{|\mathcal{A}_y|} \sum_{a \in \mathcal{A}_y} \mathbb{I}[a \text{ is supported by } \mathcal{C}]$

$\text{FACTSCORE}(\mathcal{M}) = \mathbb{E}_{x \in \mathcal{X}} [f(\mathcal{M}_x) | \mathcal{M}_x \text{ responds}]$

其中， $\mathcal{M}_x \text{ responds}$ 表示 $\mathcal{M}$ 没有拒绝响应提示 $x$ 。此定义假设以下内容：

一个原子事实是否得到 ( C ) 的支持是无可争议的。
每个原子事实在 ( \mathcal{A}_y ) 中具有同等的重要性，遵循 Krishna 等人（2023）的方法。
( C ) 中的信息片段不会相互冲突或重叠。
在本文的其余部分，我们提议使用人物传记作为 ( \mathcal{X} ) 和维基百科作为 ( \mathcal{C} )，因为它们在合理程度上满足这些假设（第 3.3 节）。我们将在限制部分更详细地讨论这些假设在何种情况下成立或可能不成立。
FACTSCORE 考虑精确度但不包括召回率，例如，一个模型如果经常拒绝回答或生成包含较少事实的文本，可能会有一个更高的 FACTSCORE，即使这些并不是我们所期望的。我们将事实召回率的评估留待未来的工作（在限制部分有更多讨论）。

3.2 研究的语言模型

我们评估了三种语言模型（称为 LMSUBJ，即作为主体的语言模型）：（1）InstructGPT（text-davinci-003，更新自 Ouyang 等人（2022）），（2）ChatGPT（OpenAI，2022），以及（3）PerplexityAI，它结合了搜索引擎和语言模型。

3.3 数据

我们根据我们的定义进行人工评估事实精度。我们提示 LMSUBJ 生成人物传记，并根据维基百科进行评估，原因如下。
• 传记是客观的（非主观或有争议的），并且包含具体的（非模糊的）信息，满足第 3.1 节中的假设 1。
• 传记允许跨不同国籍、职业和稀有程度进行评估。
• 维基百科提供了关于人物信息的合理覆盖范围，并且相对自洽，满足假设 3。

数据收集。我们精心设计了一个注释流程，通过以下步骤为长文本生成分配事实精度。
步骤 0：抽样人物实体。我们从 Wikidata 中抽取了 183 个有相应维基百科页面的人物实体。我们从附录 A.1 定义的类别中均匀分布抽样实体进行注释。
步骤 1：获取生成内容。我们将提示“告诉我的传记”输入 LMSUBJ，并直接获取生成内容。我们实施规则以识别拒绝回答的生成内容并将其过滤掉。
步骤 2：原子事实生成。人工注释者将生成内容分解为一系列原子事实。
为了节省注释时间，我们提供了由 InstructGPT 分解的原子事实，人工注释者可以采纳并修改。详细信息见附录 A.2。
步骤 3：标注事实精度和编辑。我们要求另一组人工注释者为每个原子事实分配三个标签之一。如果原子事实与提示明显无关，因此应该在不经过验证步骤的情况下从传记中删除，他们分配无关。如果事实相关，他们根据英文维基百科验证事实，并标注为支持或不支持。
我们通过 Upwork 招募自由职业者，每小时支付 15-25 美元。注释需要大量的努力和时间，导致每次生成的成本为 4 美元。我们为 10% 的数据分配了两名自由职业者，并计算了一致性比率：InstructGPT、ChatGPT 和 PerplexityAI 分别为 96%、90% 和 88%。更多细节在附录 A.3 中提供。

在这里插入图片描述
表 1：数据和 FACTSCORE 结果的统计。
InstGPT 和 PPLAI 分别指代 InstructGPT 和 PerplexityAI。% responding 表示没有拒绝回应的生成内容的百分比。# tokens 基于空格计算。

3.4 结果

数据和结果的统计见表 1。
所有 LMSUBJ 在事实精度错误上都存在困难。InstructGPT 和 ChatGPT 分别达到 42.5% 和 58.3% 的 FACTSCORE。PerplexityAI 使用商业搜索引擎，因此如果直接从正确的维基百科页面复制文本，应该有一个完美的 FACTSCORE，它达到了 71.5% 的 FACTSCORE。我们在本节的最后一段提供了对其错误案例的定性分析。
ChatGPT 和 PerplexityAI 经常拒绝回答，这可能提高了它们的事实精度。InstructGPT 很少拒绝回答，可能是因为它没有被训练这样做。
无关事实要么（a）依赖于生成内容中先前事实的支持，而这些事实最终未得到支持，或者（b）与提示无关，独立于生成内容中的其他事实（例子见附录 A.4）。我们发现（b）在 InstructGPT 和 ChatGPT 中很少发生，但在 PerplexityAI 中发生相当多，因为 PerplexityAI 经常直接复制搜索结果，即使它们与输入提示大部分无关。这与 Liu 等人（2023a）的同期研究一致，该研究表明像 PerplexityAI 这样的生成搜索引擎会复制错误的搜索结果，并生成与输入查询无关的文本。

对于更罕见的实体，错误率更高。图 2（顶部）显示了在预训练语料库中主题实体（人类）的不同频率水平上的事实精度（见附录 A.1）。随着实体的稀有性增加，FACTSCORE 显著下降，这在所有 LMSUBJ 中都是一致的。这与 Kandpal 等人（2022）和 Mallen 等人（2023）的研究一致，这些研究表明简短问题回答（QA）的准确性与预训练数据中的实体频率高度相关。然而，与 Kandpal 等人（2022）和 Mallen 等人（2023）报告的具有检索功能的模型的 QA 准确性对实体的稀有性具有鲁棒性不同，PerplexityAI 的 FACTSCORE 随着实体变得更加稀有仍然显著下降：在原子级别和句子级别分别观察到相对下降 50% 和 64%。
在这里插入图片描述
表 2：PerplexityAI（第 A.5 节）的精度错误（不支持）分类。Gen 表示来自 PerplexityAI 的生成内容，Wiki 表示来自维基百科的证据文本。Comment 表示我们的评论。

图 2：不同频率水平的人类实体（顶部）和生成内容中的相对位置（底部）的 FACTSCORE。随着实体的稀有性增加和事实位置的后移，FACTSCORE 会降低。

在生成内容中较后提及的事实错误率更高。图 2（底部）报告了生成内容中相对位置的事实精度。在所有语言模型中，生成内容的后半部分精度显著更差。这可能是因为（a）在预训练数据中更频繁提及的信息（例如，国籍、职业），以及（b）错误传播影响了生成内容的后半部分。这也意味着，仅基于简短答案评估语言模型可能无法充分评估它们的事实精度，因为这未能考虑到生成后期阶段出现的错误。

不支持的定性分析。在我们实证分析中一个令人惊讶的发现是，尽管有搜索引擎的访问权限，PerplexityAI 的 FACTSCORE（71.5%）比预期的要低。为了更好地理解其错误，我们对 30 个随机样本进行了分类，这些样本的标签为不支持（表 2）。
• 单句矛盾：维基百科中的一个句子直接与生成内容相矛盾，无论是在单词级别（数字、日期或实体）还是更深层次。
• 页级矛盾：在阅读整个页面后发现的错误，通常是因为如果事实为真，应该在维基百科中提及的事实缺失，例如，主题是否出现在特定的电影中。
• 主观性：生成内容具有主观性，通常是因为 PerplexityAI 从维基百科复制了主观文本，例如，直接复制记者的引述而没有意识到这一点。
• 事实无关：由于搜索错误，生成内容与主题无关。
• 维基百科不一致且错误：在示例中，维基百科表明主题从电影 Kick 中赢得了一个奖项，但还包括他们从 Kick 中赢得了多个奖项的文本，这是不准确的，并引用了不支持该主张的新闻文章。
• 注释错误：注释者分配了错误的标签，通常是因为信息没有在主题的维基百科页面中提及（可能是因为它不重要）。
我们还发现，尽管 PerplexityAI 提供了参考文献的引用，但引用与事实精度的相关性很小。36.0% 和 37.6% 的支持和不支持的句子分别有引用。与 Liu 等人（2023a）的独立发现一起，这表明结合搜索并提供引用的商业语言模型可能并不像预期的那样可靠。更多分析在附录 A.5 中提供。

4 自动评估中估算 FACTSCORE

人工评估事实精度成本高昂（每次生成 4 美元）（Bohnet 等人，2022；Krishna 等人，2023），因为验证每个原子事实与大型知识源是否一致是耗时的，并且一次生成包含许多（26-41）原子事实。这阻碍了语言模型开发者和实践者对新的语言模型主体（LMSUBJ）的长文本生成的事实精度进行大规模评估。在此背景下，我们引入了一个估算 FACTSCORE 的模型。该估计器接受一组生成内容，并自动计算 FACTSCORE，可应用于任何语言模型主体（LMSUBJ）。
我们描述了我们的模型（第 4.1 节）并展示了其与人工评估的准确性（第 4.2 节）。然后，我们使用该模型估算的 FACTSCORE 来评估十二种语言模型（第 4.3 节）。

4.1 模型

我们对 FACTSCORE 的估计器首先将生成内容分解为一系列原子事实，然后验证每个原子事实与给定知识源是否一致。我们发现，使用 InstructGPT 生成的原子事实（在第 3.3 节的数据收集中使用）是有效的，并且接近人类的表现，这与先前研究的发现一致（Chen 等人，2022）。因此，本节集中讨论如何验证每个原子事实与给定知识源的一致性。
验证基于对称为 LMEVAL 的语言模型进行零次提示，以区别于语言模型主体（LMSUBJ）。具体来说，提示——其构造方法在四种变体中有所不同——被输入到 LMEVAL 中。然后通过比较 LMEVAL 输出的 True 和 False 的条件概率来进行预测。如果无法获得 logit 值（例如，像 ChatGPT 这样的商业语言模型），则基于生成的文本是否包含 True 或 False 来进行预测。
我们考虑的四种变体如下：
无上下文的语言模型使用 <atomic-fact> True or False? 作为提示，与 Kadavath 等人（2022）非常相似。
检索→LM 从给定的知识源中检索段落，然后提示 LMEVAL。它首先检索 k 个段落，通过连接检索到的段落、给定的原子事实和“True or False?”，将其输入到 LMEVAL 中以获得预测。
**非参数概率（NP）**基于非参数似然做出判断。它遮盖原子事实中的每个标记，使用非参数遮盖语言模型（Min 等人，2023）计算其似然性，对所有标记的概率求平均，并基于阈值进行预测。
检索→LM + NP 是检索→LM 和 NP 的集成，只有当两种方法都分配支持时，才分配支持。

我们使用在 Super Natural Instructions 上训练的 LLAMA 7B（Inst-LLAMA，Touvron 等人，2023；Wang 等人，2022）和 ChatGPT 作为 LMEVAL，并使用基于 T5 的可泛化检索器（GTR，Ni 等人，2022）进行段落检索。更多实现细节见附录 B.1。
在这里插入图片描述
表 3：每个模型估算的 FACTSCORE（FS）以及错误率（ER）的结果。‘retrv’ 表示是否使用了检索，‘ranking’ ✓ 表示模型对三个 LMSUBJ 进行的排名是否与真实排名一致。+ 和 − 分别表示估算值比绝对值高估或低估超过 5%。红色粗体表示最佳（最低）ER。有关考虑个别判断而非综合判断的其他指标的结果，请参见附录 B.2。

4.2 估计器的评估

指标。我们报告了错误率（ER）——即真实值与估计的 FACTSCORE 之间的差异，以及估计的 FACTSCORE 是否保留了三个 LMSUBJ 之间的排名。附录 B.2 讨论了使用其他指标的结果，这些指标考虑的是个别判断而非综合判断。我们使用第 3.3 节中的数据作为评估数据。

结果在表 3 中报告。

检索显著有帮助。使用检索的模型始终优于无上下文的语言模型（No-context LM），后者要么错误率（ER）显著高，要么不能保留三个 LMSUBJ 之间的排名。这可能是因为 LMEVAL 没有记住关于主题实体的每一个事实信息，因此从检索提供的事实上下文中受益。
尽管如此，仅使用 Retrieve→LM 可能会高估 FACTSCORE，例如，当 LMSUBJ 是 InstructGPT 或 ChatGPT 时，Inst-LLAMA 的高估幅度可达 17%。在这种情况下，将 Retrieve→LM 和 NP 集成可以显著降低错误率。当 LMSUBJ 是 PerplexityAI 时，单一方法（无论是 Retrieve→LM 还是 NP）给出较低的 ER，而集成方法由于对 FACTSCORE 的低估而具有较高的 ER。

ChatGPT 并不总是最佳选择。我们的结果表明，ChatGPT 并不一定比 Inst-LLAMA 更好。我们在附录 B.3 中进一步研究了这一点。总之，ChatGPT 更擅长验证每个单独的原子事实。然而，ChatGPT 的大多数错误是错误地将不支持的事实分配为支持，从而高估了 FACTSCORE。相比之下，LLAMA+NP 不偏向高估或低估事实精度，从而使得综合事实精度更接近真实值。这类似于摘要评估中系统级和段落级相关性之间的权衡，它们经常产生不同的排名（Bhandari 等人，2020；Deutsch 等人，2021）。

最佳估计器取决于 LMSUBJ。虽然使用检索始终优于无上下文的语言模型，但最佳估计器变体取决于 LMSUBJ：InstructGPT 和 ChatGPT 使用 LLAMA+NP，PerplexityAI 使用 ChatGPT。然而，这两种评估器始终正确地给出了三个 LMSUBJ 之间的排名，第 4.3 节显示，来自两个估计器的分数在 10 多个 LMSUBJ 中大致相关（0.99 皮尔逊相关系数）。我们建议用户在评估新 LMSUBJ 时尝试我们的估计器的两种变体，并报告它们的相关性。

4.3 新语言模型的评估

我们的估计器允许在没有人工努力的情况下大规模评估大量新语言模型的事实精度。作为一个案例研究，我们评估了在进行实验时两个月内出现的十个新语言模型（表 4）。这些语言模型在许多基准上进行了评估，但由于此类评估成本高昂，它们在长文本生成的事实精度上并未进行评估。我们的目标是通过估计它们的长文本生成的 FACTSCORE 来提供有关这些语言模型的新见解。
在这里插入图片描述
表 4：第 4.3 节评估的十二种语言模型。
所有模型都针对指令遵循或聊天进行了调整。
使用其他语言模型表示模型是否在包括另一个模型输出的数据上进行了训练。开放表示模型权重公开可用。

表 5：我们未标记数据中来自 12 种语言模型的 500 个模型生成的传记以及人类编写的传记的统计数据。% responding 表示没有拒绝回应的生成内容的百分比。#facts / res 表示每个回应中的原子事实数量。根据每个回应中的事实数量对语言模型进行排序。有关它们的 FACTSCORE，请参见图 3。

4.3.1 设置

我们评估了表 4 中显示的 10 种最近发布的语言模型。GPT-4（OpenAI，2023）是 OpenAI 通过 API 提供的多模态语言模型。Alpaca（Taori 等人，2023）基于 LLAMA（Touvron 等人，2023），在根据 InstructGPT 的指令数据上进行了微调，遵循 Wang 等人（2022）的配方。Vicuna（Chiang 等人，2023）基于 LLAMA，在通过 ShareGPT 可用的 ChatGPT 输出上进行了微调。Dolly9 是在 DataBricks 创建的人类编写数据 Dolly 上微调的 Pythia 12B（Biderman 等人，2023）。Oasst-pythia11 是在通过 Open Assistant 收集的人类编写数据上微调的 Pythia 12B。StableLM-tuned-alpha13 是基于 StableLMbase-alpha14，在 Alpaca 数据、DataBricks Dolly、ShareGPT 数据、GPT4All 数据（Anand 等人，2023）和 Anthropic HH（Bai 等人，2022）上进行了微调。MPT Chat 是基于在 ShareGPT 数据、Alpaca 数据、Anthropic HH、HC3（Guo 等人，2023）和 Evol-Instruct 上微调的 MPT 7B15。
我们提示每个语言模型主体生成 500 个人类实体的传记，如第 3.3 节中所做的，但实体不重叠。我们还包括 InstructGPT、ChatGPT 和通过 DBPedia 获得的人类编写的传记。对于 11% 的实体，人类编写的传记不可用，我们将其视为拒绝回应。
有关统计数据，请参见表 5。我们总共评估了来自 13 个主体的 6500 次生成，如果由人工评估，将花费 26000 美元。

4.3.2 结果

图 3 显示了我们估计器中两个最佳变体提供的 13 个主体之间的排名，其分数高度相关，例如，皮尔逊相关系数为 0.99。此评估允许更好地理解这些模型，包括：
• 所有语言模型在事实精度方面都明显不如人类。这与之前声称语言模型接近人类表现的工作相反，即使是对于复杂任务（Ding 等人，2022；Nori 等人，2023；Lee 等人，2023），尽管编写传记的任务相当简单。
• GPT-4 和 ChatGPT 在事实精度方面相当。然而，如表 5 所报告，GPT4 拒绝回应的频率较低（12% 对比 16%），并且每个回应生成明显更多的事实（61 对比 37）。
• GPT-4 和 ChatGPT 明显比公开模型更具事实性。
• 在相同系列中不同大小的模型之间，模型大小与事实精度之间存在明显的相关性，例如，Alpaca 65B > 13B > 7B，Vicuna 13B > 7B。
• Alpaca 和 Vicuna 在相同大小的模型中表现非常接近，可能是因为它们共享相同的基础模型和类似的训练数据。尽管如此，如表 5 所示，Vicuna 每个回应生成的原子事实明显多于 Alpaca（51 对比 17）。此外，Alpaca 从不拒绝回答，而 Vicuna 会。
• 在公开模型中，即使模型大小相似，事实精度也存在很大差距，例如，在 7B 模型中，Alpaca 和 Vicuna（约 40%）比 MPTChat（30%）和 StableLM（17%）更具事实性。可能的因素包括基础语言模型的选择、数据和训练配方（Hoffmann 等人，2022）。

我们强调，此评估仅考虑事实精度，特别是在人物传记中。对语言模型的全面评估应包括生成的其他方面，如流畅性、连贯性、相关性、一致性和创造性，这超出了本文的范围。

5 结论和未来工作

我们引入了 FACTSCORE，这是一种新的评估语言模型长文本生成事实精度的方法，它将生成内容分解为一系列原子事实，并计算由给定知识源支持的事实的比例。我们首先进行了广泛的人工评估，发现商业化的、最先进的语言模型——InstructGPT、ChatGPT 和搜索引擎增强的 PerplexityAI——存在大量的错误，例如，在 ChatGPT 的情况下 FACTSCORE 为 58%。由于人工评估耗时且成本高，我们提出了一个估算 FACTSCORE 的模型，允许自动评估 FACTSCORE。我们发现，基于知识源检索和有竞争力的语言模型的估计器能够接近真实值地估算 FACTSCORE，并通过评估 12 个最近发布的语言模型来展示其应用，如果由人工评估，这些模型的评估成本可能高达 65000 美元，并提供了关于它们的见解。
在 FACTSCORE 最初发布后的四个月内，它已被积极用于后续工作，评估最近提出的模型的事实精度（Ye 等人，2023；Sun 等人，2023；Malaviya 等人，2023；Dhuliawala 等人，2023）。
作为未来的工作，我们建议：（1）考虑事实性的其他方面，如召回率（事实信息的覆盖范围）；（2）进一步提高估计器的性能，以更好地近似事实精度；（3）利用 FACTSCORE 来纠正模型生成的内容（在附录 C 中进行了简要探讨）。

限制

FACTSCORE 的范围。我们所有的实验都集中在人物传记和维基百科上，因为许多语言模型可以生成具有客观和具体事实（而不是主观和模糊的事实）的传记，而维基百科对它们的覆盖率很高。FACTSCORE 可以应用于更广泛的领域，例如，关于最近事件的文本，其知识源可以是新闻文章的集合，或关于科学发现的文本，其知识源可以是科学文献的集合。我们在附录 B.5 中提出了一个概念验证，并把进一步的研究留作未来的工作。
由于第 3.1 节中所做的假设，FACTSCORE 不适用于事实更加微妙、开放式和有争议的情况（Chen 等人，2019；Xu 等人，2023），或者对于文本经常相互冲突的知识源（Wadden 等人，2022）。此外，FACTSCORE 可能不适用于包含微妙之处和故意或隐含欺骗的人类编写的文本。

我们估计器的局限性。虽然我们的估计器接近人类并为大量语言模型提供了一致的排名，但它在个别判断上并不完美，最佳变体取决于生成内容与人类编写文本的接近程度及其语言复杂性。未来的工作可以研究模型生成的分布如何影响估计器的性能，并进一步提高估计器的性能。

超越事实精度。FACTSCORE 关注事实精度——生成内容中的每条信息是否得到可靠知识源的事实支持——这只是更广泛的事实性问题的一个方面。例如，FACTSCORE 没有考虑事实召回率：生成内容中的信息覆盖范围。FACTSCORE 不惩罚过于频繁地拒绝回答或生成较少事实的模型，这可能是不公平的，因为精度和召回率之间存在固有的权衡。此外，精度和召回率之间的界限往往是模糊的，例如，即使生成内容中的每条信息都得到支持，它也可能遗漏了应该被提及的重要信息，以便被视为正确响应输入提示（表 6 中的例子）。我们将更全面的事实性评估留作未来的工作，并建议报告 FACTSCORE 以及 % 的拒绝回答率和平均原子事实数量（如我们在第 4.3 节中所做的）。