【ACL2022】Unsupervised Token-level Hallucination Detection from Summary Generation By-products

最新推荐文章于 2024-07-29 14:37:54 发布

cch_abc

最新推荐文章于 2024-07-29 14:37:54 发布

阅读量276

点赞数

分类专栏： NLP事实一致性研究文章标签： python 自然语言处理

本文链接：https://blog.csdn.net/cch_abc/article/details/131779057

版权

NLP事实一致性研究专栏收录该内容

5 篇文章 1 订阅

订阅专栏

从摘要生成副产品中进行无监督的令牌级幻觉检测

摘要
1. 介绍
2. 相关工作
3.幻觉检测
- 3.1 无监督幻觉检测

摘要

抽象概括中的幻觉是不忠实于源文档的模型生成。当前检测幻觉的方法主要针对名词短语和命名实体进行操作，并将其自身限制在 XSum 数据集上，已知该数据集在 4 个训练示例中有 3 个存在幻觉（Maynez 等人，2020）。相反，我们考虑 CNN/DailyMail 数据集，其中摘要模型在训练期间没有看到异常多的幻觉。我们会在标记级别自动检测候选幻觉，而不管其词性如何。我们的检测基本上是免费的，因为我们只使用模型在生成摘要期间已经生成的信息。这使得从业者能够以最小的开销共同生成摘要并识别可能的幻觉。我们重新利用现有的事实数据集并创建我们自己的标记级注释。对这两个数据集的评估表明，我们的模型比竞争对手实现了更好的精确召回权衡，这还需要模型前向传递。

1. 介绍

代码地址: https://github.com/idiap/hallucination-detection
在本文中，我们的目标是将当前的研究范围扩展到不同的数据集，并消除对实体的限制。我们使用基于 Transformer 的抽象摘要模型中存在的对角交叉注意力模式（见下图）来使摘要与源文档保持一致。我们通过计算编码器的自注意力和解码器的下一个单词概率的统计数据，以无监督的方式检测对齐和未对齐标记片段的幻觉。使用任何 Transformer 模型生成摘要时都会出现这些副产品。在本文中，我们使用 BART（Lewis 等人，2020）。我们在两个数据集上评估我们的方法。我们重新利用事实数据集 FRANK（Pagnoni 等人，2021），但只有 0.4% 的标记被证明是幻觉。
还创建了一个数据集称为 TLHD-CNNDM，它包含对启发式选择的示例进行标记级注释，以包含幻觉的可能性更高。事实上，TLHD-CNNDM 中 14.2% 的标记是幻觉。与竞争对手相比，我们的方法显示出良好的结果，同时所需的额外计算量可以忽略不计。
与此同时，幻觉检测被证明是一项艰巨的任务，特别是对于内在幻觉（在第 3 节中定义），所有模型都难以检测任何幻觉。
在这里插入图片描述
BART 交叉注意力将摘要的复制片段与源中的相应片段对齐。注意力权重按行标准化。仅显示第一个摘要和源句子。

2. 相关工作

提到目前已有几种不同的方法来检测幻觉。

介绍	文献
专门的解码策略来推动模型更接近源词汇 /实体	1. Focus attention: Promoting faithfulness and diversity in summarization. 2.Planning with learned entity prompts for abstractive summarization.
使用自动问题生成和回答模型来询问有关生成的摘要中的实体的问题，并尝试从源文档中回答这些问题	1. Asking and answering questions to evaluate the factual consistency of summaries. 2. Feqa: Aquestion answering evaluation framework for faithfulness assessment in abstractive summarization. 3. Questeval: Summarization asks for fact-based evaluation.
据条件和无条件语言模型分配的概率差异来确定幻觉的程度	之后补充
使用基于蕴含的分类器用于在文本或依赖弧级别评估摘要的事实性
通过破坏输入、幻觉（Zhou 等人，2021）以及事实（Cao 等人，2020；Krysci ´ nski 等人，2020）来为分类器创建合成数据也很常见。

3.幻觉检测

定义：将内在幻觉定义为源文档中无法推断的信息的组合，将外在幻觉定义为源文档中不存在的信息。然而，可以从源文件中直接推断出的释义和信息并不构成幻觉。此外，某些信息是否是幻觉与该信息是否真实正确是一个正交问题，本文中不考虑这个问题。

3.1 无监督幻觉检测

在生成摘要的过程中，基于 Transformer 的抽象摘要模型会为每一层创建许多副产品，例如解码器下一个令牌生成概率、编码器和解码器自注意力以及解码器到编码器的交叉注意力和模型的注意力头。意思是可以轻易获取到并可以利用。
动机：模型注意力是否可用于解释模型决策存在争议（Jain 和 Wallace，2019；Wiegreffe 和 Pinter，2019）以及 Transformer 编码器的输出表示在多大程度上仍代表输入中其位置的标记（Brunner 等人，2020））。尽管如此，我们假设图 1 中观察到的对角注意力模式，以及源标记和目标标记与整个片段匹配的事实，是一个足够强的信号，足以表明摘要模型从源复制了该片段。
此外，我们推测，与摘要的事实性相比，摘要对源文档的忠实度本质上并不是一个跨越多个句子的问题（Pagnoni 等人，2021）。因此，我们通过单独处理摘要句子来检测令牌级别的幻觉
【补充】如果在对角注意力模式中观察到源标记和目标标记之间的对齐，并且这些标记与源文档中的整个片段匹配，那么可以认为模型在生成摘要时确实从源文档中复制了该片段。这种对角注意力模式的存在表明模型在对齐和复制源文档信息方面具有一定的能力。然而，需要注意的是，对角注意力模式本身并不能提供绝对的证据，证明模型是在复制特定的片段。这种模式可能是模型在生成摘要时通过学习到的一种普遍策略，而不仅仅是针对特定的片段。因此，需要综合考虑其他证据和评估指标，以确定模型是否真的在从源文档中复制了特定的片段。
初始对齐：根据观察，首先根据交叉注意力对齐摘要和源位置。在 BART 交叉注意力中，最大交叉注意力权重通常放在源中的序列开头标记上。如果该标记是介词，则其前面和后面的标记也会受到较高的关注权重。因此，我们接受目标标记的目标源对齐，当且仅当它与前4个交叉注意力权重中的源标记匹配。这构成了我们的初步对齐。
在这里插入图片描述
【补充】在这个矩阵中，我们可以看到第一行表示目标标记，其他行表示源标记。根据对齐策略，我们关注前四个交叉注意力权重中的源标记。对于每个目标标记，我们查看对应行中前四个最大的注意力权重。在上述示例中，我们可以看到对于目标标记"The"，与之对齐的前四个源标记是"The"、“cat”、“sat"和"on”，它们的注意力权重分别是0.9、0.1、0和0。因此，在这种情况下，我们会接受目标标记"The"与这四个源标记的对齐。
上下文投票扩展初始对齐 ：使用基于位置的投票算法扩展初始对齐。对于每个目标标记 ti，其上下文标记 ti−l，…。。。 , ti−1, ti+1, . 。。 , ti+l 在 ti 周围大小为 l 平方的窗口中对 ti 的预期源位置进行投票，给定其自己的对齐方式和假设的对角注意力模式。如果令牌与源不一致，则它不会投票。当至少一半的相邻令牌同意时，我们接受投票。我们最多进行10轮投票，当收敛时我们会提前停止，这通常发生在 2 轮之后。
在这两个对齐阶段之后，有一组对齐的段，在摘要和源之间具有令牌级别的对应关系，以及一组未对齐的令牌。我们现在希望检测前一组中的内在幻觉，以及后一组中的外在幻觉。
对对齐的标记进行分类：对齐的标记出现在源文档中，因此不构成外在幻觉。为了确定它们是内在幻觉的概率，我们比较了它们对齐的源片段的特征。 Maynez 等人（2020）推测，内在幻觉可能是文档建模的失败。我们补充说，编码器在文档建模方面也可能表现良好，但通过表征瓶颈与解码器的通信可能会失败。在后一种情况下，我们应该能够根据编码器在两个片段之间的自注意力的强度来读取两个源片段的关联。我们通过两个段之间编码器自注意力权重（encij 和 encji）的面积归一化总和来确定两个对齐段 seg1 和 seg2 的关联强度 α：
在这里插入图片描述
其中，i 和 j 分别是片段seg1和seg2的源指数，|.| 是基数。图2用蓝色方框显示了注意力权重相加的区域。一个片段的得分是其摘要句子中所有其他片段的平均值 α。分数越高，我们就越有信心这两个片段在语义上越接近，因此不是内在幻觉。

BART 编码器自注意力通过源文档的对齐段 seg1 和 seg2（灰色框）与它们的交互（蓝色框）进行关联。仅显示前两个源语句。
例如，下图显示第四段与其他段落的关联强度最小。事实上，这是一种内在幻觉。它谈论的是豪宅的现状，而谓词涉及的是过去。对未对齐的标记进行分类：对未对齐的标记进行分类。虽然未对齐的标记仍然可能出现在源文档中并导致内在幻觉，但这组标记的普遍错误模式是外在幻觉。我们发现生成的摘要有时包含与文章完全无关的句子，很可能是数据收集的产物。我们的第一个分数 βalign 是对齐的摘要句子标记的分数。对于大多数对齐的句子中未对齐的标记，我们推测强语言模型的生成与源文档和迄今为止编写的摘要非常吻合（在语法上和语义上），因此应该是模型所期望的。在相反的情况下，意想不到的一代会带来更多的惊喜。语言模型的预期惊喜可以用其下一个单词解码概率的熵来量化（Meister 等人，2020）。下图显示了示例摘要的解码熵。因此，我们提出第二个分数 β 熵作为逆平滑解码熵：其中 H(ti) 是目标标记 ti 的下一个单词概率分布的熵。
在这里插入图片描述

包含外部幻觉的摘要（红色粗体标记）。第一个出现幻觉的标记的解码熵值较高，随后出现的标记的解码熵值较低。我们根据第一个标记来确定整个语段（定义见公式3）的幻觉得分（公式2）。只有意外句段的第一个标记的产生才是令人惊讶的（如上图所示），而句段的后续完成具有高概率和低熵。因此，我们根据解码熵将一跨未对齐的标记分成不同的句段。其构造如下：只要下一个标记 ti 的解码熵小于当前句段 seg 的平均解码熵，它就会被加入。否则就开始一个新的分段。
在这里插入图片描述

 【补充】逆平滑解码熵（Inverse Smoothed Decoding Entropye）是指在生成文本序列的解码过程中，通过引入平滑因子来减少解码的不确定性，从而
 提高生成的文本质量。在语言生成任务中，解码过程涉及从模型的概率分布中选择下一个词或子词。通常，模型会倾向于选择具有最高概率的词作为下一个生
 成的词。然而，这可能导致生成的文本过于确定性，缺乏多样性和灵活性。为了增加生成文本的多样性，逆平滑解码熵引入了平滑因子，它将概率分布中的
 每个词的概率进行平滑处理。平滑可以是均匀平滑（Uniform Smoothing）或其他形式的平滑方法。通过引入平滑因子，可以减少生成的文本的确定性，增
 加不同词的选择可能性，从而提高生成文本的多样性和自然度。逆平滑解码熵是指使用平滑后的概率分布计算的解码熵。解码熵是衡量在给定上下文下选
 择下一个词的不确定性的度量。逆平滑解码熵越大，表示生成的文本越多样化，包含更多可能的词选择。逆平滑解码熵是一种衡量语言生成模型生成文本
 多样性和灵活性的指标，可以用来评估和比较不同生成模型的性能。较低的逆平滑解码熵可能表示生成的文本过于确定性，而较高的逆平滑解码熵则表示
 生成的文本更具多样性和自然度。

将分数转换为概率：我们所有的忠诚度分数都是非负的，上限为1。分数越高意味着产生幻觉的可能性越小。因此，我们通过缩放和求逆将每个忠诚度分数 s 转换为幻觉概率 p。
在这里插入图片描述
其中 smin 和 smax 是整个数据集的最小和最大分数。在离线评估设置中，可以首先计算数据集上的所有分数，然后得到 smin 和 smax。对于在线设置，必须设置这些值。在我们的两个数据集上，我们观察到最小值和最大值变化不大，因此我们期望当前值转移到新数据集。 α 的值为 [0,0.02]，β 熵的值为 [0.08, 0.71]，并且 βalign 已经在正确的范围内。
BART-GBP。正如我们将在第 5 节结果中的消融研究中看到的，关联强度α降低了我们检测方法的性能。因此，我们的最终模型 BART-GBP（BART 生成副产品）仅使用 βalign 和 βentropy 分数。