GEAR: Graph-based Evidence Aggregating and Reasoning for Fact Verification

基于图的证据聚集和推理用于事实验证

Abstract

之前工作知识信息提取,并没有证据通信,仅仅进行拼接处理。因此,这些方法无法掌握证据之间足够的关系和逻辑信息。提出一个a graph-based evidence aggregating and reasoning (GEAR) 基于图的证据聚集和推理。这使得信息能够在完全连接的证据图上传输,然后利用不同的聚合器来收集多证据信息。

在FEVER分数67.10% 代码:https://githubcom/thunlp/GEAR

Introduction

因此,最近的许多研究都致力于事实验证,其目的是用从纯文本中检索到的证据来验证给定的声明。更具体地说,给定一个声明,FV系统被要求“支持”、“反驳”或“没有足够的信息”,这表明证据可以支持、反驳或不足以支持声明。
在这里插入图片描述

现有问题:连接证据或只处理每个证据-索赔对。这些方法无法掌握证据之间足够的关系和逻辑信息。事实上,许多声明要求同时整合和推理几个证据进行核实。如表1所示,对于“被支持的”例子和“被反驳的”例子,我们不能通过单独检查任何证据来验证给定的声明。这些主张只有通过对多种证据的理解和推理才能得到证实。

具体来说,我们首先构建一个完全连通的证据图,并鼓励证据之间的信息传播。然后,我们汇总证据,并采用一个分类器来决定证据是否能够支持、反驳或不足以支持这一主张。直观地说,通过对证据图上的证据信息进行充分的交换和推理,该模型可以充分利用这些信息来验证声明。
例如,通过证据图将“洛杉矶县是美国人口最多的县”的信息传递给“洛杉矶县发生的罗德尼·金骚乱”,合成信息可以支持“罗德尼·金骚乱发生在美国人口最多的县”。此外,我们采用了一个有效的预处理语言表示模型BERT (Devlin等人,2019),以更好地掌握证据和索赔语义。

在FEVER对比基准模型

Related Work

2.1 FEVER Shared Task

2.2 Natural Language Inference

自然语言推理(NLI)任务要求系统将一对前提和假设之间的关系标记为蕴涵、矛盾或中性.将NLI模型转移到FEVER任务的索赔验证阶段是直观的,来自共享任务的几个团队已经通过这种方式获得了有希望的结果。

2.3 Pre-trained Language Models

在我们的实验中,我们发现微调的BERT模型在FEVER声明验证子任务上优于其他基于NLI的模型。因此,我们在框架中使用BERT作为句子编码器,以更好地编码证据和主张的语义信息。
在这里插入图片描述

3 Method

我们采用一个包含文档检索句子选择声明验证组件的三步管道来解决该任务。在文档检索和句子选择阶段,我们简单地遵循Hanselowski等人(2018)的方法,因为他们的方法在以前的FEVER共享任务中具有最高的证据召回分数。在声明验证的最后阶段,我们提出了基于图的证据聚集和推理框架。整体如图1

3.1 Document Retrieval and Sentence Selection

在这一节中,我们描述了我们的文档检索和句子选择组件。此外,我们在句子选择组件后添加一个阈值过滤器来过滤掉那些有噪声的证据。
采用entity linking方法。给定一个声明,该方法首先利用AllenNLP的the constituency parser(加德纳等人,2018)从声明中提取潜在的实体。然后它使用实体作为搜索查询,并通过在线媒体维基百科找到相关的维基百科文档。存储每个查询的七个排名最高的结果,以形成候选文章集。最后,该方法丢弃不在离线维基百科转储中的文章,并根据文章标题和声明之间的单词重叠来过滤文章。

句子选择组件从检索到的文档中的所有句子中选择与声明最相关的证据。Hanselowski et al. (2018)修改了ESIM模型,以计算证据和声明之间的相关性得分。

在训练阶段,模型使用hinge损失函数 ∑ m a x ( 0 , 1 + s n − s p ) \sum max(0,1 +s_n-s_p) max(0,1+snsp)和负采样策略,其中 s p s_p sp s n s_n sn表示正样本和负样本的相关性分数。在测试阶段,最终模型用不同的随机种子集成来自10个模型的结果。在原始方法中,选择相关性得分最高的5个句子来形成最终的证据集。

除了原始模型(Hanselowski等人,2018),我们添加了一个具有阈值 τ \tau τ的相关性分数过滤器。相关性得分低于 τ \tau τ的句子被过滤掉以减轻噪声。因此,检索到的证据集的最终大小等于或小于5。我们选择不同的 τ \tau τ值,并根据开发集结果选择值。文档检索和句子选择部分的评估结果见第5.1节。

Claim Verification with GEAR

在这一节中,我们描述了我们的GEAR声明验证框架。如图1所示,给定一个声明和检索到的证据,我们首先利用句子编码器(sentence encoder)来获得索赔和证据的表示。然后我们建立了一个全连通的证据图,并提出了一个证据推理网络(evidence reasoning network,ERNet)来传播证据和推理之间的信息。最后,我们利用证据聚合器(evidence aggregator)来推断最终结果。

Sentence Encoder
给定一个输入句子,我们使用BERT(Devlin et al., 2019)作为我们的句子编码器,提取[CLS]令牌的最终隐藏状态作为表示,其中[CLS]是BERT中嵌入的特殊分类。 具体地说,给定一项声明 c c c N N N件检索到的证据 e 1 , e 2 , . . . , e N {e_1,e_2,...,e_N} e1e2...eN,我们将每个证据-声明对 ( e i , c ) (e_i,c) (eic)输入BERT以获得证据表示 e i e_i ei。我们还将索声明单独输入BERT,以获得声明表示 c c c
e i = B E R T ( e i , c ) , c = B E R T ( c ) (1) e_i=BERT(e_i, c), \\ c=BERT(c) \tag{1} ei=BERT(ei,c),c=BERT(c)(1)

请注意,我们拼接证据和声明来提取证据表示(即, e i e_i ei),因为推理图中的证据节点需要来自声明的信息来指导它们之间的消息传递过程。

Evidence Reasoning Network
为了鼓励证据之间的信息传播,我们构建了一个完全连通的证据图,其中每个节点表示一个证据。首先为每个节点增加了self-loop,因为每个节点在消息传播过程种都需要来自自身的信息。使用 h t = { h 1 t , h 2 t , . . . , h N t } h^t = \{h_1^t,h_2^t,...,h_N^t\} ht={h1t,h2t,...,hNt}表示节点在第 t t t层的隐藏状态,这里 h i t ∈ R F × 1 h_i^t \in R^{F\times 1} hitRF×1,f是每个节点中的特征数。每个证据节点 h i 0 h_i^0 hi0的初始隐藏状态由证据表示初始化: h i 0 = e i h_i^0= e_i hi0=ei

受最近半监督图学习和关系推理工作的启发。我们提出了一个证据推理网络(ERNet)来在证据节点之间传播信息。我们首先使用MLP来计算节点 i i i和它的邻居 j , j ∈ N i j,j\in N_i j,jNi之间的注意力系数。
p i j = W 1 t − 1 ( R e L U ( W 0 t − 1 ( h i t − 1 ∣ ∣ h j t − 1 ) ) ) . (2) p_{ij}=W_1^{t-1}(ReLU(W_0^{t-1}(h_i^{t-1}||h_j^{t-1}))). \tag{2} pij=W1t1(ReLU(W0t1(hit1hjt1))).(2)

N i N_i Ni代表节点 i i i的邻居节点, w 0 t − 1 ∈ R H × 2 F w_0^{t-1} \in R^{H\times 2F} w0t1RH×2F W 1 t − 1 ∈ R 1 × H W_1^{t-1} \in R^{1 \times H} W1t1R1×H 是权重矩阵, ∣ ∣ || 代表拼接

然后,我们使用softmax函数对系数进行归一化,
α i j = s o f t m a x j ( p i j = e x p ( p i j ) ∑ k ∈ N i e x p ( p i k ) ) (3) \alpha_{ij} = softmax_j(p_{ij} = \frac{exp(p_{ij})}{\sum_{k \in N_i} exp(p_{ik})}) \tag{3} αij=softmaxj(pij=kNiexp(pik)exp(pij))(3)

最后,归一化的注意力系数被用于计算相邻特征的线性组合,因此我们获得了层 t t t处的节点 i i i的特征,
h i t = ∑ j ∈ N i α i j h j t − 1 (4) h_i^t =\sum_ {j \in N_i} \alpha_{ij} h_j^{t-1} \tag{4} hit=jNiαijhjt1(4)

通过堆叠ERNet的T层,我们假设每个证据都可以通过与其他证据的交流来掌握足够的信息。我们将证据节点 h 1 T , h 2 T , . . . , h N T {h_1^T,h_2^T,...,h_N^T} h1Th2T...hNT进入我们的证据聚合器做出最终推断。

Evidence Aggregator
我们使用证据聚合器从不同的证据节点收集信息,并获得最终的隐藏状态 O ∈ R F × 1 O \in R^{F \times 1} ORF×1。聚合器可能使用不同的聚合策略,我们在框架中建议使用三个聚合器:

  1. Attention Aggregator. 在这里,我们使用声明 c c c的表示来关注证据的隐藏状态,并获得最终的聚合状态 o o o
    p j = W ∗ ( R e L U ( W 0 ∗ ( c ∣ ∣ h j T ) ) ) p_j = W^* (ReLU(W_0^* (c||h_j^T))) pj=W(ReLU(W0(chjT)))

α j = s o f t m a x ( p j ) = e x p ( p j ) ∑ k = 1 N e x p ( p k ) (5) \alpha_j = softmax(p_j)= \frac{exp(p_j)}{\sum_{k=1}^N exp(p_k)} \tag{5} αj=softmax(pj)=k=1Nexp(pk)exp(pj)(5)
o = ∑ k = 1 N α k h k T o=\sum_{k=1}^N \alpha_kh_k^T o=k=1NαkhkT
这里 W 0 ∗ ∈ R H × 2 F W_0^* \in R^{H \times 2F} W0RH×2F W 1 ∗ ∈ R 1 × H W_1^* \in R^{1 \times H} W1R1×H

  1. Max Aggregator. 最大值聚合器在隐藏状态之间执行元素级最大操作。
    o = M a x ( h i T , h 2 T , . . . , h N T ) (6) o = Max(h_i^T, h_2^T,...,h_N^T) \tag{6} o=Max(hiT,h2T,...,hNT)(6)
  2. Mean Aggregator. 均值聚合器在隐藏状态之间执行元素方式的均值操作。
    o = M e a n ( h i T , h 2 T , . . . , h N T ) (7) o = Mean(h_i^T, h_2^T,...,h_N^T) \tag{7} o=Mean(hiT,h2T,...,hNT)(7)

一旦获得最终状态 o o o,我们使用单层MLP来获得最终预测 l l l
l = s o f t m a x ( R e L U ( W o + b ) ) (8) l = softmax(ReLU(W_o + b)) \tag{8} l=softmax(ReLU(Wo+b))(8)
这里 W ∈ R C × F W \in R^{C\times F} WRC×F b ∈ R C × 1 b \in R^{C\times 1} bRC×1是参数,C是预测标签的数量。

4 Experimental Settings

4.1 Dataset

FEVER数据集,185455个注释声明,5,416,537个维基百科文档
在这里插入图片描述

4.2 Baselines

在本节中,我们描述了实验中的基线系统。我们首先介绍来自FEVER共享任务的前3个系统。由于BERT (Devlin等人,2019) 在几个NLP任务上取得了令人鼓舞的性能,我们还通过在声明验证任务中微调BERT来实现两个基线系统。

4.3 Hyperparameter Settings

B E R T B A S E BERT_{BASE} BERTBASE lr=2e-5 看论文详解

4.4 Evaluation Metrics

除了传统的评估指标,如标签准确性和F1,我们还使用其他两个指标来评估我们的模型。
FEVER score
FEVER评分是以提供至少一整套证据为条件的标签准确性。声明标签为“NEI”的主张不需要证据。

OFEVER score
文档检索和句子选择组件通常由oracle FEVER(OFEVER)分数来评估,该分数是假设完美的下游系统时FEVER分数的上限。

对于GEAR的所有实验,我们在dev集上报告的分数(label accuracy, FEVER score)是平均值,10次运行由不同的随机种子初始化。

5 Experimental Results and Analysis

在本节中,我们首先介绍文档检索和句子选择组件的评估。然后我们从几个不同的方面来评估我们的GEAR框架。最后,我们提出了一个案例研究,以证明我们的框架的有效性。

5.1 Document Retrieval and Sentence Selection

我们使用OFEVER度量来评估文档检索组件。

表三对比 OFEVER分数, 表四对句子选择组件与不同的阈值进行比较。
我们发现阈值为0的模型获得了最高的召回率和OFEVER分数。当阈值增加时,召回值和OFEVER分数逐渐下降,而精度和F1分数增加。结果和我们的直觉是一致的。如果我们不筛选出证据,更多的声明可能会提供完整的证据集。如果我们增加阈值的值,更多的有噪声的证据被过滤掉,这有助于精度和F1的增加。
在这里插入图片描述

5.2 Claim Verification with GEAR

在这一部分,我们从不同的方面来评估我们的GEAR框架。我们首先比较我们的框架和基线系统之间的标签准确性分数。然后我们探讨了不同阈值对上游句子过滤的影响。我们还进行了额外的实验来检查句子嵌入的效果。由于有近39%的声明需要对多条证据进行推理,我们构建了一个困难的开发子集,并检查了我们的ERNet进行证据推理的有效性。最后,我们进行了误差分析,并给出了框架的理论上界标注精度。

Model Evaluation
我们使用标签准确性度量来评估不同声明验证模型的有效性。表7的第二列展示精确度。我们发现BERT微调模型优于来自共享任务的所有模型,这显示了BERT在表征学习和语义理解方面的强大能力。BERT-Concat模型比BERT-Pair模型略有改进,提高了0.37%。

由于我们的框架为证据聚合和推理提供了更好的方法,因此改进表明,我们的框架通过传播、分析和聚合特征,具有更好的集成来自不同证据的特征的能力。

Effect of Sentence Thresholds
表4最右边的一列显示了我们的GEAR框架在不同句子选择阈值下的结果。我们选择阈值 τ = 1 0 − 3 τ= 10^{-3} τ=103、标签精度最高的模型作为最终模型。当阈值从0增加到$10^{-3}时,标签精度会因噪声较小的信息而提高。然而,当阈值从 1 0 − 3 10^{-3} 103增加到 1 0 − 1 10^{-1} 101时,由于信息证据被过滤掉,模型不能获得足够的证据来做出正确的推断,因此标签的准确性降低。
在这里插入图片描述

Effect of Sentence Embedding
我们在句子编码步骤中使用的BERT模型在FEVER数据集上进行了一个epoch的微调。我们需要找出是否微调过程或简单地结合BERT的句子嵌入是否对最终结果做出了主要贡献。我们使用BERT模型进行了一个没有微调过程的实验,我们发现最终开发标签的准确性接近于随机猜测的结果。因此,微调过程而不是句子嵌入在这项任务中起着重要作用。

我们需要微调过程来捕捉证据和声明之间的语义和逻辑关系。句子嵌入更一般,在这个特定的任务中表现不好。因此,我们不能仅仅使用其他方法(如ELMo、CNN)的句子嵌入来代替我们在这里使用的句子嵌入。
在这里插入图片描述

Effectiveness of ERNet
在我们的观察中,dev数据集中一半以上的声明只需要一个证据就可以做出正确的推断。为了验证我们的框架在多条证据推理上的有效性,我们通过从原始开发集中选择样本来构建一个困难的开发子集。对于SUPPORTEDREFUTED类,仅由一个证据完全支持的声明将被过滤掉。 之所以选择所有的NEI声明,是因为该模型需要所有检索到的证据来得出NOT ENOUGH INFO”的结论。困难子集包含7870个样本,其中包括超过39%的开发集。

我们在困难的子集上测试我们的最终模型,并在表5中给出结果。我们发现我们的有ERNet的模型比没有ERNet的模型表现更好,它们之间的最小改善是1.27%。我们还可以从表中发现,具有2个ERNet层的模型获得了最佳结果,这表明来自困难子集的声明需要多步证据传播。这个结果证明了我们的框架处理需要多种证据的索赔的能力。

Error Analysis
在本节中,我们将研究从上游组件传播的错误的影响。我们利用一个证据增强的开发子集来测试我们的GEAR框架的理论上限分数,该子集假设所有的基本事实证据都被检索到。

在我们的分析中,我们的框架的主要错误来自上游的文档检索和句子选择组件,它们不能提取足够的证据来进行推理。例如,为了核实声明Giada at Home was only available on DVD
我们需要Giada at Home is a television show and first aired on October 18, 2008, on the Food NetworkFood Network is an American basic cable and satellite television channel。然而,在我们的文档检索组件中使用的实体链接方法不能仅通过解析声明的内容来检索Food Network文档。因此,索赔核实部分无法在证据不足的情况下做出正确的推断。

为了探索这个问题的影响,我们在证据增强的dev集上测试了我们的模型,其中我们在句子阈值过滤器之前将相关性分数为1的基本事实证据添加到证据集。它确保证据增强集合中的每个声明都提供有基本事实证据以及检索到的证据。

实验结果如表6所示。我们可以发现,与表7中的原始开发集标签准确性相比,表中的所有分数都增加了1.4%以上,因为增加了基本事实证据。由于oracle上游组件的假设,表6中的结果表明了我们框架的理论上限标签准确性。

结果显示了以往证据检索任务中的挑战,这些挑战是现有模型无法解决的。Nie等人(2019年)提出了一种两跳证据增强方法,在最终的发热评分上提高了0.08%。由于基础事实证据的增加导致我们的实验增加了1.4%以上,因此设计一个更好的证据检索管道是值得的,这仍然是我们未来的研究方向。

5.3 Full Pipeline

我们在本节中介绍了对我们全部管道的评估。请注意,由于证据集的完整性,标签准确性和最终FEVER评分之间存在差距。我们发现,一个善于预测NEI实例的模型往往会获得更高的发热评分。因此,我们在所有实验中根据dev FEVER分数选择最终模型。该模型包含一层ERNet,并使用了注意力聚合器。句子选择的阈值 1 0 − 3 10^{-3} 103
表7给出了对整个管道的评估。我们发现BERT微调系统的测试FEVER分数比其他共享任务模型高出近1%。此外,我们的完整管道的性能比BERT-Concat基线高出1.46%,并实现了显著的改进。

5.4 Case study

在这里插入图片描述

表8显示了我们实验中的一个例子,它需要多条证据来做出正确的推断。基本事实证据集包含文章“Al Jardine”中第0行和第1行的句子。这两个证据在我们检索到的证据集中也排在前两位。

为了验证“阿尔·贾丁是否是一名美国节奏吉他手”,我们的模型需要证据“他是作为乐队的节奏吉他手而闻名”以及证据“艾伦900查尔斯·贾丁”…是美国音乐家”。我们用一层ERNet和图2中的注意力聚集器绘制了最终模型的注意力图。我们可以发现,所有证据节点都倾向于参加第一个和第二个证据节点,这两个节点在这种情况下提供了最有用的信息。其他证据节点中的注意权重相当低,这表明我们的模型有能力从多条证据中选择有用的信息。
在这里插入图片描述

6 Conclusion

我们提出了一个新的基于图的证据聚集和推理框架。该框架利用BERT语句编码器、证据推理网络(ERNet)和证据聚合器来编码、传播和聚合来自多条证据的信息。该框架被证明是有效的,我们的最终管道实现了显著的改进。在未来,我们希望设计一个多步骤的证据提取器,并将外部知识纳入我们的框架。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值