《TRUE: Re-evaluating Factual Consistency Evaluation》论文阅读

《TRUE: Re-evaluating Factual Consistency Evaluation》NAACL2022论文阅读

论文链接:https://arxiv.org/pdf/2204.04991

本文提出了 TRUE(统一事实一致性评估框架),旨在解决文本生成系统中事实不一致性自动评估方法的分散性问题。现有的评估方法通常在单一任务或数据集上独立开发,缺乏跨任务可比性,且依赖系统级相关性分析,难以反映指标在单例层面的准确性。TRUE 通过标准化 11 个多任务数据集(涵盖摘要、对话、复述、事实验证等),提出基于 ROC AUC 的元评估协议,更直观地衡量指标在检测不一致性时的精确性和召回率。实验表明,基于大规模自然语言推理(NLI)和问答生成(QG-QA)的方法在跨任务中表现最佳且互补,组合使用可进一步提升性能。本文呼吁未来研究采用统一评估框架,推动更可靠的事实一致性评估方法发展。

摘要

基于文本的生成系统常生成包含事实不一致的文本,限制了其实际应用。自动事实一致性评估可通过加速评估周期、过滤不一致输出和增强训练数据来缓解这一问题。尽管相关研究日益增多,但这些指标通常在单一任务或数据集上孤立开发和评估,阻碍了其广泛应用。此外,以往的元评估协议侧重于系统级与人工标注的相关性,导致指标在单例层面的准确性尚不明确。本文提出 TRUE,通过对现有多任务文本的标准化整合与人工标注,全面评估事实一致性指标。标准化使元评估协议更具可操作性和可解释性,提供更清晰的质量度量。在 11 个数据集上测试多种前沿方法后发现,基于大规模自然语言推理(NLI)和问答生成(QG-QA)的方法表现出强互补性。我们建议将这些方法作为模型和指标开发的起点,并希望 TRUE 能推动未来评估方法的进步。

1. 引言 

部署文本生成模型的核心挑战在于其常生成与输入条件不符甚至完全“虚构”的事实不一致文本(如表 1 所示)。为检测此类不一致性,需自动预测生成文本是否与输入文本(即“知识”)保持事实一致性。此类方法因能加速评估、过滤训练数据或增强可控生成而备受关注。

然而,当前事实一致性评估缺乏统一的元评估协议,且标注方案粒度不一。现有研究多针对特定任务(如摘要或对话)独立开发数据集和方法,导致跨任务鲁棒性难以比较,阻碍领域进展。

本文提出 TRUE,通过标准化多任务数据集(摘要、知识对话、复述、事实验证)并统一标注为二元标签(整体一致性),实现跨任务鲁棒评估。与以往依赖系统级相关性分析不同,我们提出基于 ROC AUC 的元评估协议,直接衡量指标在单例层面的不一致性检测能力(召回率)和误判率(精确度)。

实验覆盖 12 种指标,结果表明:大规模NLI和QG-QA方法在跨任务中表现最佳且互补,组合使用进一步提升性能。分析揭示了长文本输入和主观陈述等挑战,为未来研究指明方向。

2. 标准化事实一致性

核心贡献:

  1. 定义严格的事实一致性标准:仅基于输入文本评估忠实性,避免引入外部知识的主观性。

  2. 数据集标准化:将 11 个多任务数据集统一为二元标注格式,便于跨任务评估。

  3. 元评估协议:提出基于 ROC AUC 的评估方法,直接衡量指标在单例层面的不一致性检测能力,避免了系统级相关性分析的局限性。

  4. 详细数据集描述:涵盖摘要、对话、事实验证和复述任务,展示了 TRUE 框架的广泛适用性。

通过这些标准化步骤,TRUE 为事实一致性评估提供了一个统一、可操作的框架,为未来研究奠定了基础。

本节详细阐述了重新评估的设置。首先,正式定义本文中事实一致性的含义。接着,描述所考虑的数据集及其标准化过程。最后,讨论用于衡量评估方法在标准化数据集上性能的元评估协议

2.1 定义与术语

定义:如果生成文本所传达的所有事实信息与输入文本(即“基础文本”)所传达的事实信息一致,则该文本在事实一致性上是与基础文本一致的。对比之前的方法,本文仅基于输入文本中的信息来评估其忠实性,而不依赖外部知识。这使得任务更加明确,因为判断一个事实是否与“现实世界”一致是主观的,且依赖于主体的知识、价值观和信仰。这一定义与文本蕴含(Textual Entailment)、问答(Question Answering)、摘要(Summarization)等任务中的严格性一致,这些任务的理解基于给定的基础文本,而不考虑与其他世界知识的矛盾。这也与最近关于文本生成中归因评估的工作一致,其中人类需要判断生成文本是否可归因于基础文本。在本文中交替使用“一致”、“基于基础”、“忠实”和“事实性”这些术语。

2.2 标准化过程

纳入了 11 个包含人工标注事实一致性的数据集(表 2)。除了涵盖广泛的错误类型外,这还缓解了数据集间标注质量差异的问题。

为了建立一个统一的评估框架,将所有标注转换为二元标签,表示目标文本是否与给定基础文本在整体上保持事实一致性。

2.2.1 摘要生成

FRANK提出了一种基于框架语义学和语言学话语理论的事实错误类型学。基于这一类型学,他们收集了 CNN/DailyMail(CNN/DM)和 XSum数据集上模型生成摘要的标注,共包含 2250 个标注的系统输出。每个摘要句子由三名标注者标注。我们对每个句子取多数投票以获得句子级标签,当且仅当所有句子都一致时将摘要视为一致的。

SummEval是一项关于文本摘要评估指标的综合研究。作者收集了100篇CNN/DM数据集文章上 16 个模型输出的人工评分,评分基于 4 个维度:一致性、连贯性、流畅性和相关性。每个摘要由 5 名众包工作者和 3 名专家标注者评分。我们仅在所有专家标注者给出的一致性评分为 5 分时才将摘要标记为一致。

MNBM 对 XSum 数据集的系统输出进行了标注。他们抽样了 500 篇文章,并标注了四个不同系统生成的摘要以及黄金摘要。标注者被要求评估摘要是否包含虚构内容。每个文档-摘要对收集了三名不同标注者的判断。为了转换为二元标签格式,我们使用摘要是否包含虚构内容的二元一致性决策,并通过三名标注者的多数投票分配标签。

QAGS 收集了 CNN/DM 和 XSum 数据集上生成摘要的事实一致性判断。标注者逐句查看摘要,并判断每个句子是否与文章事实一致。每个句子由三名标注者标注,使用多数投票作为最终得分。为了转换为二元标签格式,我们仅在所有句子都一致时才将摘要视为一致。

2.2.2 对话生成

BEGIN 是一个用于评估知识对话系统基础性的数据集,系统输出应与提供给对话代理的基础知识一致。BEGIN 将任务框架为文本蕴含,采用“蕴含”和“矛盾”标签,并将中性标签分为三类:虚构、离题和通用响应。对话响应通过在 Wizard of Wikipedia(WOW)数据集上微调两个系统生成,响应应基于 Wikipedia 的文本片段。生成的响应被拆分为句子,每个句子单独标注。为了转换为二元标签格式,我们将蕴含的句子视为一致,其余视为不一致。

Q² 标注了 1,088 个生成的对话响应,判断其是否与提供给对话模型的知识段落保持二元事实一致性。响应由论文的三位作者之一标注,每个响应由一名标注者标注。我们直接使用 Q² 的标签,不做修改。

DialFact引入了对话中的事实验证任务,并构建了一个包含对话声明与 Wikipedia 证据片段配对的数据集。他们定义了三个任务:(1)检测响应是否包含可验证内容;(2)检索相关证据;(3)预测响应是否被证据支持、反驳或信息不足。我们使用第三个任务中标注的可验证(即事实性而非个人性)响应,将“支持”标注视为一致,其余视为不一致。在需要多个证据进行验证的情况下,我们将所有证据句子连接起来作为基础文本。

2.2.3 事实验证

FEVER 引入了 FEVER(事实提取与验证)数据集,用于针对文本来源进行事实验证。FEVER 通过从 Wikipedia 提取信息、生成声明并由标注者标注每个声明是否被 Wikipedia 支持或反驳来构建。声明还可以标注为“信息不足”,表示 Wikipedia 中没有足够信息来验证或反驳声明。给定一个声明,FEVER 定义的任务是首先提取证据,然后确定其是否支持或反驳声明。在稍有不同的框架中,FEVER 的后期阶段是确定声明是否与证据在事实上一致,这与我们在 TRUE 中衡量的目标一致。我们使用 FEVER 的 NLI 版本的开发集,将“支持”声明视为一致,其余视为不一致。

VitaminC 从 Wikipedia 页面的修订中提取了一个大规模的事实验证数据集。每个示例包括来自 Wikipedia 的证据文本和一个事实,标注该事实是否被证据支持、反驳或中立。作者收集了 Wikipedia 文章的事实修订(“之前”和“之后”句子的配对),并要求标注者为每对编写两个事实:一个被第一句支持并被第二句反驳,反之亦然。当没有明确矛盾时,标注者编写与证据中立的事实。还通过修订 FEVER 的示例创建了额外的示例。我们将包含“支持”事实的示例视为一致,将“反驳”或“中立”事实的示例视为不一致。

2.2.4 复述检测

PAWS 构建了一个用于复述识别的数据集,包含 108,463 对具有高词汇重叠的复述和非复述对,通过受控词汇交换和回译生成,并由人类评分者判断。源句子来自 Wikipedia 和 Quora 问答对(QQP)语料库。我们仅使用 Wikipedia 源句子的示例,并将二元复述标签视为一致性标签。我们注意到,复述的定义与事实一致性的定义并不等同,因为源文本的子集不是复述,但仍可能与源文本在事实上一致。然而,PAWS 的构建方式使得非复述通常具有矛盾的含义,因此具有相关性。

2.3 元评估

先前关于事实一致性评估的工作主要侧重于衡量所提出指标与人工判断的系统级相关性。然而,当关注于对每个输入进行二元决策的不一致性检测方法的绝对性能时,这些系统级数字并不十分有用。Deutsch et al. (2022) 最近也讨论了使用系统级相关性来衡量自动摘要评估指标有效性的各种问题。

为了在单例层面进行更细粒度的评估,我们报告了接收者操作特征曲线下面积(ROC AUC),用于二元检测不一致示例。ROC 曲线通过绘制不同阈值下的真正例率(TPR,即召回率)与假正例率(FPR,即误报率)来创建。通过测量 ROC AUC,可以在不设置特定决策阈值的情况下评估不同指标。

正例为不一致的文本,负例为一致的文本。

  • TPR(真正例率) = 正确检测出的不一致文本数量 / 总的不一致文本数量。

  • FPR(假正例率) = 错误标记为不一致的一致文本数量 / 总的一致文本数量。

曲线下面积(AUC)用于衡量模型的整体性能。AUC(Area Under the ROC Curve) 的值越大,说明 事实一致性检测方法 在识别 不一致文本 时的性能越好。

  • 检测不一致文本的能力更强(高召回率)。

  • 误判一致文本的概率更低(低误报率)。

  • 整体性能更优,能够更好地区分不一致文本和一致文本。

  • 跨任务鲁棒性更强,能够适应多种文本生成任务。

对于已有开发/测试集划分的数据集,我们还在开发集上调整二元一致性/不一致性决策的阈值,并使用该阈值报告测试集准确率。我们通过优化 TPR 和 1-FPR 的几何平均值来调整阈值:\sqrt{TPR\ast(1-FPR)}

3. 评估指标

通过与如下指标的比较,TRUE 框架为事实一致性评估提供了多样化的工具,展示了 NLI 和 QG-QA 方法在跨任务中的优势。

指标类别指标名称核心方法适用场景
基于 N-GramBLEU、ROUGE、F1N-Gram 匹配基线,验证与事实一致性的低相关性
基于模型BERTScoreBERT 嵌入的相似性聚合文本生成评估
BLEURT基于 BERT 的学习指标,合成数据预训练 + 人工判断微调文本生成评估
FactCC基于 BERT 的摘要事实一致性验证摘要事实一致性
BARTScoreBART 模型的强制解码概率文本生成评估
CTCBERT 序列标记模型检测虚构词元生成文本与基础文本的对齐度
自然语言推理(NLI)ANLI微调 T5-11B 模型计算蕴含概率生成文本与基础文本的一致性
SummaC(SC_ZS​)拆分文档和摘要句子,计算蕴含概率摘要事实一致性
基于问答生成(QG-QA)通过 NLI 模型比较生成文本和基础文本的答案对话生成和摘要的事实一致性
QuestEval反转生成文本和基础文本的角色,评估事实一致性和相关性文本生成评估

我们比较了多种标准和前沿的事实一致性评估方法。这一比较旨在清晰展示当前研究的现状,并为未来工作指明方向。例如,我们期望稳健的指标能够在各种任务和数据集上表现良好。接下来,我们描述了本研究中评估的不同指标。我们注意到,对于所有基于参考的指标,我们使用基础文本作为参考。对于得分不在 [0,1] 范围内的指标,我们将得分归一化到该范围内。

3.1 基于 N-Gram 的指标

标准的 N-Gram 匹配指标(如 BLEU、ROUGE 和基于词元的 F1)已被证明与事实一致性的相关性较弱。我们将它们作为本研究的基线,主要是为了在广泛的数据集和任务上验证这一结论。

3.2 基于模型的指标

BERTScore 通过聚合候选句子和参考句子中 BERT 上下文嵌入的相似性得分来评估文本生成。我们报告 BERTScore 的精确度变体,因为在初步实验中它表现更好。我们使用 BERTScore 0.3.11 版本,并采用 DeBERTa-xl-MNLI 模型,这是撰写本文时推荐的模型。

BLEURT 是一种基于 BERT的学习指标,用于评估文本生成。BLEURT 包括在合成数据上的额外预训练,然后通过人工判断进行微调,以训练一个评分模型。我们使用推荐的 BLEURT-20 检查点。

FactCC 是一种基于 BERT 的指标,用于验证摘要的事实一致性。它通过在应用规则转换生成一致和不一致摘要的合成数据上进行训练。

BARTScore 通过使用 BART 模型进行强制解码的概率来评估文本。我们使用在 ParaBank2 数据集上微调的版本。

CTC 通过使用 BERT 序列标记模型测量生成文本与基础文本的平均词元对齐度来评估一致性。该模型通过自监督方式检测 BART 模型生成的虚构词元。

3.3 自然语言推理(NLI)指标

ANLI
文本蕴含(Textual Entailment)或自然语言推理(NLI)的任务是给定两个句子(假设和前提),判断假设是否被前提蕴含、与之矛盾或与之无关。NLI 与事实一致性评估的相似性促使人们利用 NLI 模型来衡量事实一致性。我们通过在 Adversarial NLI(ANLI)数据集上微调 T5-11B训练了一个 NLI 模型。如 Maynez et al. (2020) 所建议的,我们以基础文本为前提,生成文本为假设,计算蕴含概率,并将其作为示例级的事实一致性得分。

SummaC(Summary Consistency)专注于评估摘要中的事实一致性。他们通过将文档和摘要拆分为句子,并计算所有文档/摘要句子对的蕴含概率来检测不一致性,其中前提是文档句子,假设是摘要句子。他们通过取每个摘要句子的最大得分并取平均(SC_ZS​)或训练卷积神经网络来聚合得分(SC_Conv)来聚合 NLI 得分。我们使用公开可用的实现。

3.4 基于问答生成(QG-QA)的指标

Durmus et al. (2020) 和 Wang et al. (2020) 提出使用问答生成(QG)和问答(QA)模型来自动评估摘要中的事实一致性,并展示了有前景的结果。Honovich et al. (2021) 采用了类似的方法来评估基于知识的对话生成。

QG-QA 方法的步骤如下:

  1. 为生成文本中的片段自动生成问题,使得问题的答案是其对应的输入片段。

  2. 使用 QA 模型在基础文本上回答生成的问题,生成答案片段或“无答案”输出。

  3. 对于每个问题,比较基础文本和生成文本的两个答案片段,得到一个得分。

  4. 将所有问题的得分聚合为最终得分。

Q² 是一种 QG-QA 方法,它使用 NLI 模型来比较每个问题的两个答案,其中基础文本的答案作为前提,生成文本的答案作为假设。我们报告了使用 T5-11B 作为 QG、QA 和 NLI 模型骨干的 Q² 重新实现的结果。Honovich et al. (2021) 通过使用 QA 模型回答生成的问题并与原始提取的答案候选进行精确匹配来验证每个生成的问题,而我们放宽了这一要求,转而使用预定义阈值的 F1 词元重叠。

QuestEval是一种 QG-QA 方法,它通过反转生成文本和基础文本的角色来同时衡量事实一致性和相关性。作者训练了一个模型,根据每个生成问题的答案在生成文本中出现的相关性对其进行加权。他们的结果显示,与先前在 SummEval 基准上的工作相比,QuestEval 与人工判断的相关性更高。我们使用公开可用的版本。

4. 结果

我们在标准化数据集上报告了各种指标的 ROC AUC 值,结果如表 3 所示。ROC 曲线可以在附录中的图 2 中找到。由于 SC_ZS​ 在 VitaminC 上进行了训练,而 VitaminC 包含了 FEVER 的示例,因此为了更公平的比较,我们在计算平均 AUC 时排除了这些数据集。由于所有指标在所有数据集上均以“zero-shot”方式运行(除了 SC_ZS 在 VitaminC 和 FEVER 上),且无需调整阈值,因此我们在开发集上报告结果。

指标类别指标名称核心方法适用场景
自然语言推理(NLI)ANLI微调 T5-11B 模型计算蕴含概率生成文本与基础文本的一致性
SummaC(SC_ZS​)拆分文档和摘要句子,计算蕴含概率摘要事实一致性
基于问答生成(QG-QA)通过 NLI 模型比较生成文本和基础文本的答案对话生成和摘要的事实一致性
QuestEval反转生成文本和基础文本的角色,评估事实一致性和相关性文本生成评估

结果显示,基于 NLI 的模型(ANLI、SC_ZS​)在 6 个数据集上表现最佳,平均 AUC 分别为 81.5 和 81.4。Q² 在 4 个数据集上表现最佳,平均 AUC 为 80.7。次优方法 BARTScore 的平均 AUC 较低,为 72.2。所有其他方法的平均 AUC 均低于 72(不包括 FEVER 和 VitaminC)。正如预期的那样,简单的基于词元匹配的指标表现不佳,为了完整性,我们在附录的表 9 中报告了它们的性能。我们在表 3 中保留了 F1 得分,以便与其他指标进行方便的比较。

一个例外是 BEGIN 数据集,它是唯一一个简单指标(如 F1 词元重叠)得分超过 80 的数据集。我们测量了每个数据集中基础文本和目标文本之间的平均重叠,发现 BEGIN 的基础文本和非基础文本之间的差异比其他数据集更大(见附录表 8),这解释了这一现象。

我们遵循 Laban et al. (2021) 的方法,通过自助重采样(bootstrap resampling)进行显著性检验,比较每个数据集上最佳方法与次优方法的表现。我们在 p=0.05 和 p=0.01 的水平上进行区间比较,发现 6 个数据集上有显著的最佳结果,其中 3 个由 Q² 实现,3 个由基于 ANLI 的模型实现。

鉴于没有单一方法在所有数据集上表现最佳,我们假设 NLI 和 QG-QA 指标是互补的。我们通过将 Q²、ANLI 和 SC_ZS的得分按示例平均(表 3 中的“Ensemble”)来测试这一点。事实上,将三种方法平均后,大多数数据集和平均结果都有所提升,ROC AUC 从最佳单一指标结果提高了 4.5。

我们的结果表明,单一指标可以在所有任务和数据集上表现良好,所有 3 个最佳指标在 11 个数据集上的平均得分均超过 80。这证实了我们的假设,即事实一致性评估可以统一,我们希望这种统一的视角能在未来工作中被采用,以加速该领域的进展。

5. 分析

在本节中,我们对实验结果进行了深入分析,探讨了不同指标的表现及其背后的原因,并指出了未来研究的方向。

5.1 输入长度的影响

由于问答(QA)和自然语言推理(NLI)模型在处理长文本时可能表现不佳,基于这些模型的指标在处理长文本时可能会失效。为了研究输入长度对指标性能的影响,我们将所有数据集统一,并根据基础文本的长度将示例分为 6 个区间。我们关注基础文本的长度,因为目标文本通常较短(见附录 A 中的表 7)。我们测量了每个长度区间内表现最佳的 3 个指标的 AUC,每个区间采样 1,000 个示例。

结果如图 1 所示。我们发现,对于长度超过 200 个词元的文本,所有指标的性能均出现下降,包括 SC_ZS,尽管它被设计为更好地处理长文本。令人惊讶的是,基于 ANLI 的模型和 Q² 在最长的区间(超过 500 个词元)上仍然表现相对较好(AUC > 0.825),尽管它们需要对超过 500 个词元的文本进行端到端的 QA 和 NLI 处理

5.2 模型大小的影响

基于模型的指标通常受益于模型规模的增加。为了量化这一点,我们研究了使用较小模型对 ANLI、BLEURT 和 BERTScore 指标的影响。我们比较了较大模型和较小模型的平均 ROC AUC。消融实验结果如表 4 所示。我们发现,较大的 ANLI、BLEURT 和 BERTScore 变体分别比小模型平均 ROC AUC 高出 4.7、3.7 和 1.3,这表明较大的模型确实能够提升事实一致性评估指标的性能,并暗示使用更大模型可能带来进一步的改进。

5.3 定性分析

我们进行了手动错误分析,以指出不同指标的弱点,并揭示任务中的挑战。我们分析了 80 个被所有三个最佳指标错误分类的示例,以及 100 个被其中一个或两个指标正确分类的示例。

在分析的示例中,许多示例似乎存在错误的标签。这在所有最佳指标都失败的案例中尤为明显,其中 35/80 的案例存在标注错误。对于其中一个或两个指标失败的案例,我们发现 27/100 的案例存在标注错误。为了验证高标注错误率是否确实是由于检查“最困难”示例的结果,而不是我们所使用数据集的普遍问题,我们均匀采样了 100 个额外示例,发现只有 10 个存在标注错误。因此,我们强调高标注错误率确实仅表征“困难”示例,而不是我们所使用数据集的一般属性。这与 Freitag et al. (2021) 的发现一致,他们表明在某些情况下,指标可能比人类标注者更准确。

我们还发现,许多错误分类的示例涉及长输入主观陈述。例如,在对话中,代理可能会生成包含个人观点或主观判断的响应,这些响应不应被视为事实性错误,但 NLI模型可能会将其标记为不一致。表 5 展示了一些错误分类的示例,包括具有挑战性的事实不一致性和包含非事实性主观陈述的对话响应。

6. 相关工作

近年来,自动评估生成文本质量的研究取得了显著进展。相关工作包括评估生成文本的流畅性、连贯性和相关性,以及评估事实一致性。然而,大多数研究集中在单一任务上,如摘要或对话,缺乏跨任务的统一评估框架。

在跨任务评估生成文本的研究中,GEM专注于评估系统输出,而不是事实一致性评估方法,如 TRUE 所做的那样。BEAMetrics提出了跨任务的元评估协议,但并未特别关注事实一致性。在讨论一致性(“正确性”)时,他们测量了相关性,但这并不足够,正如第 2.3 节所述。Chen et al. (2021) 提出了一种针对摘要任务的事实一致性评估的对抗性元评估。其他关于跨数据集事实一致性元评估的工作包括 GO-FIGURE、FRANK、SummaC和 QAFactEval,但它们都仅关注摘要任务。Yeh et al. (2021) 对对话指标进行了全面评估,但并未特别关注事实一致性。据我们所知,我们的工作是首次将事实一致性评估的讨论推广到跨任务和数据集,并首次展示大规模 QG-QA 和 NLI 方法的强大互补性,为未来工作设定了更好的基线和元评估方法。

7. 讨论与未来工作

我们讨论了 TRUE 研究的主要结论,并指出了未来工作的可行方向。首先,由于 QG-QA 和 NLI 方法表现出比其他方法更好的性能,尤其是在组合使用时,我们建议模型开发者在事实一致性是优先考虑的情况下使用这些方法进行评估。对于指标开发者,我们建议使用这些方法和 TRUE 中的数据集来评估新指标。

我们还建议报告 ROC AUC 而不是相关性,因为它更具可解释性和可操作性。我们提出的二元标注方案可以轻松测试新指标在跨任务和数据集上的表现,这对未来工作非常有用。

最后,我们鼓励数据策划者使用二元标注方案,这与 Rashkin et al. (2021a) 的建议一致。尽管如此,我们并不排除更详细的标注方案,而是要求提供将这些标签转换为更通用的二元格式的协议。未来工作还可以解决我们在分析中指出的长文本输入和对话中主观陈述的挑战。

8.结论

我们提出了 TRUE,一项关于自动事实一致性评估方法的调查和评估。我们标准化了来自不同任务的各种数据集,以统一标注方案进行全面的自动评估方法比较,展示了大规模 NLI 和 QG-QA 方法在跨多个任务和数据集上的良好表现。我们进一步展示了这些方法的高度互补性,暗示了进一步改进的空间,同时指出了当前的局限性。我们希望我们的结果和方法能够鼓励未来工作采用更统一的视角,推动更事实一致的 NLP 应用的发展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值