Fine-grained Fact Verification with Kernel GA Network

基于核图注意力网络的细粒度事实验证
这篇尽量看原文把,很多地方没看懂,但是实验部分做的很精彩

0. Abstract

事实验证需要细粒度的自然语言推理能力,这种能力可以找到敏感的线索来识别语法和语义正确但没有很好支持的声明。提出了核图注意力网络( Kernel Graph Attention Network,KGAT ),该网络通过基于核注意力进行更细粒度的事实验证。给定一个声明和一组形成证据图的潜在证据语句(给一组句子形成证据图),KGAT为了更好测量证据节点重要性引入节点核,为了在图上执行细粒度证据传播,引入边缘核,以此进行更准确的事实验证。KGAT获得了70.38%的FEVER评分。在事实验证的大规模基准FAVER上,显著优于现有的事实验证模型。我们的分析表明,与点积注意相比,基于核的注意更多地集中在证据图中相关的证据语句和有意义的线索上,这是KGAT有效性的主要来源。

1. Introduction

含有虚假信息的在线内容,如虚假新闻、政治欺骗和在线谣言,在过去几年中显著增长并广泛传播。如何自动“事实核查(fact check)”文本内容的完整性,防止虚假新闻的传播,避免恶意捏造言论的不良社会影响,是我们社会迫切需要解决的问题.

最近的研究将这个问题表述为事实验证任务,其目标是使用可信的语料库自动验证语句的完整性,例如维基百科。例如,如图1所示,系统可以首先从背景语料库中检索相关的证据句子,对这些句子进行联合推理,并聚集信号来验证声明的完整性
在这里插入图片描述

事实验证中的证据推理(evidence reasoning)和聚合(aggregation)面临两个挑战

  1. 没有给出基本的事实证据;证据语句是从不可避免地包含噪声的背景语料库中检索的。
  2. 另一种是虚假的主张往往是故意捏造的;它们可能语义正确,但不受支持。

这使得事实验证成为一项颇具挑战性的任务,因为它需要细粒度的推理能力来区分真假陈述之间的细微差别

提出了一种新的神经结构推理模型——核图注意网络(KGAT),该模型利用神经匹配核为事实验证提供了更细粒度的证据选择和推理能力。给定检索到的证据片段,KGAT首先构建一个证据图,使用声明和证据作为图节点和完全连通的边。然后,它利用两组核,一组在边缘,有选择地总结线索以获得更细粒度的节点表示,并通过多层图注意力在相邻节点之间传播线索;另一个在节点上,通过将证据与声明更好地匹配来执行更准确的证据选择。这些信号由KGAT组合,在证据图上共同学习和推理,以获得更准确的事实验证。

FEVER得到70.38%优于BERT+GNN。我们的实验证明了TKGA的强大的有效性,特别是在需要多证据推理的事实上:我们基于内核的注意力机制提供了更加离散和集中的注意力模式,这是KGAT测试有效性的主要来源

2. Related Work

FEVER共享任务旨在开发自动事实验证系统,通过从维基百科提取证据来检查人类生成的声明的准确性。最近推出的FEVER共享任务1.0是在Codalab2上举办的一场比赛,有一个盲测试集,引起了NLP社区的极大关注。

现有的事实验证模型通常采用FEVER的官方基线和三步管道系统.文件检索,句子检索和声明验证。
后来使用XLNET+语义级别的图,用于推理获得更好性能。这些基于图的模型建立了节点间的相互作用,以便对几个证据进行联合推理。

许多事实推理任务利用NLI任务验证声明,NLI任务旨在将一对前提和假设之间的关系分为蕴含、矛盾或中性,类似FEVER,尽管后者需要系统自己找到证据,而且往往有多个证据。这部分都是参考文献

3. Kernel Graph Attention Network

KGAT应用在事实验证,首先,KGAT首先使用检索到声明 C C C(claim)的证据语句构建证据图 D = { e 1 , . . . , e p , . . . , e 1 } D=\{e^1,...,e^p,...,e^1\} D={e1,...,ep,...,e1}。然后用证据图预测声明的标签 y y y(见3.1,3.2)。如图2,推理模型有两个主要部分:

  1. 边缘核的证据传播
  2. 基于节点核的证据选择

3.1 Reasoning with Evidence Graph

与以前的研究(周等,2019)类似,KGAT通过将每个claim-evidence对作为一个节点来构造证据图 G G G,并将所有节点对与边连接起来,使其成为具有 l l l个节点的完全连接的证据图: N = { n 1 , . . . , n p , . . . n l } N=\{n^1,...,n^p,...n^l\} N={n1,...,np,...nl}

KGAT统一了多证据和单证据推理场景,并产生了预测声明标签y的概率 P ( y ∣ c , D ) P(y|c,D) P(ycD)。与之前的工作(周等人,2019)不同,我们遵循图神经网络中的标准图标签预测设置(V eliˇ ckovi c等人,2017)并将预测分为两个部分:
1)每个节点中的标签预测以整个图为条件 P ( y ∣ n p , G ) P(y|n^p, G) P(ynp,G)
2)证据选择概率 P ( n p ∣ G ) P(n^p|G) PnpG
P ( y ∣ c , D ) = ∑ p = 1 l P ( y ∣ c , e p , D ) P ( e p ∣ c , D ) ,   ( 1 ) P(y|c,D)= \sum_{p=1}^lP(y|c,e^p,D)P(e^p|c,D), \ (1) P(ycD)=p=1lP(yc,ep,D)P(epc,D), (1)
或在图表符号中:
P ( y ∣ G ) = ∑ p = 1 l P ( y ∣ n p , G ) P ( n p ∣ G ) .   ( 2 ) P(y|G)=\sum_{p=1}^lP(y|n^p,G)P(n^p|G). \ (2) P(yG)=p=1lP(ynp,G)P(npG). (2)
联合推理概率 P ( y ∣ n p , G ) P(y|n^p,G) P(ynpG)计算多证据的节点标签预测。 读出模块(Knyazev等人,2019)计算概率 P ( n p ∣ G ) P(n^p|G) P(npG),并用注意力组合每个节点的信号进行预测。

本节的其余部分描述了第3.2节中节点 ( n p ) (n^p) (np)表示的初始化。用边核计算每个节点的预测 P ( y ∣ n p , G ) P(y|n^p,G) P(ynp,G)(3.3)。具有节点核的读出模块 P ( n p ∣ G ) P(n^p|G) P(npG)。(3.4).

3.2 Initial Node Representations

通过将句子的声明、文档(维基)标题和证据语句的串联序列馈送到预先训练的BERT模型(Devlin等人,2019)来初始化节点表示。

具体来说,在节点 n p n_p np,声明和证据对应m个token(带[SEP])和n个token(带维基百科标题和[SEP])。使用BERT编码器,获得节点 n p n^p np隐藏状态 H p H^p Hp:
H p = B E R T ( n p )   ( 3 ) H^p=BERT(n^p) \ (3) Hp=BERT(np) (3)
第一个令牌([CLS])的表示被表示为节点 n p n^p np的初始表示:
z p = H 0 p   ( 4 ) z^p=H_0^p \ (4) zp=H0p (4)
剩余的序列 H 1 : m + n p H_{1:m+n}^p H1:m+np表示声明和证据字符:声明字符序列 H 1 : m p H_{1:m}^p H1:mp和证明字符序列 H m + 1 : m + n p H_{m+1:m+n}^p Hm+1:m+np
在这里插入图片描述

3.3 Edge Kernel for Evidence Propagation

KGAT中的证据传播和每节点标签预测是由边缘核进行的,边缘核利用核注意力机制在图 G G G中的节点之间沿着边缘传播信息。

具体来说,KGAT使用核注意力机制计算节点 n p n^p np的表示 v p v^p vp,并使用它来产生每个节点的声明预测 y y y:
v p = E d g e — K e r n e l ( n p , G ) v^p=Edge—Kernel(n^p,G) vp=EdgeKernel(np,G)
P ( y ∣ n p , G ) = s o f t m a x y ( L i n e a r ( v p ) )   ( 5 ) P(y|n^p, G)=softmax_y(Linear(v^p)) \ (5) P(ynp,G)=softmaxy(Linear(vp)) (5)
KGAT的边缘核通过一种分层的注意力机制在节点间传播信息。它使用token level attentions预测节点表示并且sentence level attentions沿着边传播信息。

Token Level Attention.
字符级别的注意力使用核获得更细粒度的邻居节点 n q n^q nq的表示 z ^ q → p \widehat{z}^{q\rightarrow p} z qp,根据节点 n p n^p np。内容传播和注意力由核控制。

为了获得在 n q n^q nq的第 i i i个字符注意力权重 α i q → p \alpha_i^{q\rightarrow p} αiqp,我们首先在第q个节点核第p个节点进行转换矩阵 M q → q M^{q\rightarrow q} Mqq,转换矩阵 M i j q → q M^{q\rightarrow q}_{ij} Mijqq每个元素在 M q → q M^{q\rightarrow q} Mqq中,是它们对应的token的BERT表示的余弦相似性:
M i j q → q = cos ⁡ ( H i q , H j p )   ( 6 ) M^{q\rightarrow q}_{ij}=\cos(H_i^q, H_j^p) \ (6) Mijqq=cos(Hiq,Hjp) (6)
然后从转换矩阵 M q → q M^{q\rightarrow q} Mqq用K核提取匹配特征 K ⃗ ( M i q → q ) \vec{K}(M_i^{q\rightarrow q}) K (Miqq)
K ⃗ ( M i q → q ) = { K 1 ( M i q → q ) , . . . , K K ( M i q → q ) }   ( 7 ) \vec{K}(M_i^{q\rightarrow q}) = \{K_1(M_i^{q\rightarrow q}),...,K_K(M_i^{q\rightarrow q})\} \ (7) K (Miqq)={K1(Miqq),...,KK(Miqq)} (7)

每个核函数 K K K_K KK利用高斯核函数提取特征,并总结转换分数以支持多级交互。
K K ( M i q → q ) = log ⁡ ∑ j e x p ( − M i j q → q − μ k 2 δ k 2 )   ( 8 ) K_K(M_i^{q \rightarrow q})=\log {\sum_j exp(-\frac{M_{ij}^{q \rightarrow q} - \mu_k}{2 \delta_k^2})} \ (8) KK(Miqq)=logjexp(2δk2Mijqqμk) (8)
μ k \mu_k μk δ k \delta_k δk是均值和卷积核k的宽度,它捕获字符之间的某种级别的交互

然后每个注意力权重 α i q → p \alpha_i^{q\rightarrow p} αiqp用线性层计算
α i q → p = s o f t m a x i ( L i n e a r ( K ⃗ ( M i q → q ) ) )   ( 9 ) \alpha_i^{q\rightarrow p}=softmax_i(Linear(\vec{K}(M_i^{q\rightarrow q}))) \ (9) αiqp=softmaxi(Linear(K (Miqq))) (9)
注意力权重用于组合字符表示 z ^ q → q \widehat{z}^{q\rightarrow q} z qq
z ^ q → q = ∑ i = 1 m + n α i q → p ⋅ H i q   ( 10 ) \widehat{z}^{q\rightarrow q}=\sum_{i=1}^{m+n} \alpha_i^{q\rightarrow p} \cdot H_i^q \ (10) z qq=i=1m+nαiqpHiq (10)
其编码内容信号以从节点 n q n^q nq传播到节点 n p n^p np

Sentence Level Attention.
句子级注意力将邻居节点信息与节点表示 v p v^p vp相结合。聚合是通过图形注意力机制完成的,与之前的工作相同。

首先根据第p个节点 n p n^p np计算出对节点 n q n^q nq的注意力权重 β q → q \beta^{q\rightarrow q} βqq
β q → q = s o f t m a x q ( M L P ( z p ∘ z ^ q → q ) )   ( 11 ) \beta^{q\rightarrow q}=softmax_q(MLP(z^p \circ \widehat{z}^{q\rightarrow q})) \ (11) βqq=softmaxq(MLP(zpz qq)) (11)
∘ \circ 表示连接操作符, z p z^p zp表示 n p n^p np节点初始化。

然后,通过将邻居节点表示 z ^ q → q \widehat{z}^{q\rightarrow q} z qq与注意相结合来更新第p个节点的表示:
v p = ( ∑ q = 1 l β q → q ⋅ z ^ q → q ) ∘ z p   ( 12 ) v^p=(\sum_{q=1}^l \beta^{q\rightarrow q} \cdot \widehat{z}^{q\rightarrow q}) \circ z^p \ (12) vp=(q=1lβqqz qq)zp (12)

它用它的邻居更新节点表示,更新的信息首先由字符级别注意力(Eq.9),然后是句子层面的注意力(Eq。11).

3.4 Node Kernel for Evidence Aggregation

通过图神经网络中的“读出”功能来组合每个节点的预测(周等人,2019),其中,KGAT使用节点核来学习每个证据的重要性。
它首先使用节点核来计算每个节点 n p n^p np的读出表示 Ψ ( n p ) \Psi(n^p) Ψ(np)
Ψ ( n p ) = N o d e − K e r n e l ( n p ) .   ( 14 ) \Psi(n^p) = Node-Kernel(n^p). \ (14) Ψ(np)=NodeKernel(np). (14)
类似于边缘核,我们首先进行一个转换矩阵 M c → e p M^{c\rightarrow e^p} Mcep在第p个声明和证据中,使用它们的隐藏状态 H 1 : m p H_{1:m}^p H1:mp H m + 1 : m + n p H_{m+1:m+n}^p Hm+1:m+np。在转换矩阵上核匹配特征 K ⃗ ( M t c → ( e p ) ) \vec{K}(M_t^{c \rightarrow(e^p)}) K (Mtc(ep))是被组合以产生节点选择表示 Ψ ( n p ) \Psi(n^p) Ψ(np):
Ψ ( n p ) = 1 m ⋅ ∑ i = 1 m K ⃗ ( M i c → e p ) .   ( 15 ) \Psi(n^p)=\frac{1}{m} \cdot \sum_{i=1}^m \vec{K}(M_i^{c \rightarrow e^p}). \ (15) Ψ(np)=m1i=1mK (Micep). (15)
该表示在读出中用于计算第p个证据选择概率 P ( n p ∣ G ) P(n^p|G) P(npG):
P ( n p ∣ G ) = s o f t m a x p ( L i n e a r ( Ψ ( n p ) ) ) .   ( 16 ) P(n^p|G)=softmax_p(Linear(\Psi(n^p))). \ (16) P(npG)=softmaxp(Linear(Ψ(np))). (16)
利用核多级软匹配能力(熊等人,2017年),根据节点级预测与声明的相关性对证据图中的节点级预测进行加权:
P ( y ∣ G ) = ∑ p = 1 l P ( y ∣ n p , G ) P ( n p ∣ G )   ( 17 ) P(y|G)=\sum_{p=1}^l P(y|n^p,G)P(n^p|G) \ (17) P(yG)=p=1lP(ynp,G)P(npG) (17)
通过最小化交叉熵损失,对整个模型进行端到端训练:
L = C r o s s E n t r o p y ( y ∗ , P ( y ∣ G ) ) L=CrossEntropy(y*, P(y|G)) L=CrossEntropy(y,P(yG))
使用基本事实验证标签 y ∗ y* y

4. Experimental Methodology

本节描述了我们实验中的数据集、评估指标、基线和实现细节。
Dataset. FEVER
185,455 annotated claims
5,416,537 Wikipedia documents
Evaluation Metrics. Label Accuracy (LA) 和 FEVER score.
LA是一个通用的评估指标,它计算声明分类准确率,而不考虑检索到的证据。
FEVER评分考虑是否提供了一套完整的黄金证据,更好地反映了推理能力
以及考虑GFEVER(Golden FEVER)
精度、召回率和F1用于使用所提供的句子级别标签来评估证据句子检索的准确性(句子是否是证据来验证声明)。
在这里插入图片描述

Baselines.
在这里插入图片描述

Implementation Details.
Document retrieval. 与之前类似,对于给定的声明,它首先利用AllenNLP中的选区解析器(the constituency
parser )来提取所有可能指示实体的短语。然后它使用这些短语作为查询,通过在线媒体维基API找到相关的维基百科页面。
在这里插入图片描述

Sentence retrieval. 句子检索部分着重于从检索到的页面中选择相关的句子。在我们的实验中有两种句子检索模型。基于ESIM的句子检索和基于BERT的句子检索。用BERT-base。我们使用“[CLS]”隐藏状态来表示声明和证据句子对。然后利用一个学习排名层(rank layer)将“[CLS]”隐藏状态投影到排名得分。

*Claim verification.*在训练是batch_size=4,累计步长到8,训练两个epoch,在开发集训练。训练和开发集由黄金证据和具有句子检索的高排序证据构成。所有声明都有五个证据。

5. Evaluation Result

通过实验研究了KGAT的性能、在不同推理场景下的优势以及核的有效性。

5.1 Overall Performance

进行了几个测试场景来比较KGAT有效性和基于BERT的基线:
KGAT在所有场景一致有效()

5.2 Performance on Different Scenarios

本实验研究了核在多证据和单证据推理场景中的有效性,以及核的贡献。
根据黄金证据标签,可验证的实例被分成两组(带有“NOT ENOUGH INFO”标签的实例除外)。如果需要一个以上的证据,声明被认为需要多证据推理。单证据推理集和多证据推理集分别包含11,372 (85.3%)和1,960 (14.7%)个实例。我们还评估了两个额外的KGAT变体:KGAT-Node,它只在节点上使用核,边缘核被标准的dot-production attention,以及KGAT-Edge,它只在边缘使用核。表4显示了这两种情况下这些系统的结果.
在这里插入图片描述

KGAT-Node在单个和多个推理场景中的性能都优于GAT 0.3%以上。不出所料,对GFEVER帮助不大,因为给出了黄金证据,不需要节点选择。说明KGAT-Node主要关注于选择合适的证据和在读出中分配准确的组合权重。

KGAT-Edge在多证据推理和单证据推理场景下的性能分别优于GAT 0.8%和0.1%。它的有效性主要在于结合来自多个证据的信息。

多证据推理场景和单证据推理场景从不同角度评价推理能力。单证据推理主要侧重于选择最相关的证据和单证据推理。主要用检索到的证据评价模型去噪能力。多证据推理是一个更加困难和复杂的场景,需要模型总结必要的线索和多证据推理。它强调评估联合推理的证据交互。KGAT-Node在两种推理场景下表现出一致的改进,这说明了证据选择的重要作用。另一方面,KGAT-Edge在多种推理场景中更有效,因为Edge核有助于更好地沿着边缘传播信息。

5.3 Effectiveness of Kernel in KGAT

这组实验进一步说明了KGAT核的影响
More Concentrated Attention.
本实验通过核注意力的熵来研究核注意力,熵反映了学习到的注意权重是集中的还是分散的。KGAT中的核注意力的熵、GAT中的点积注意力和均匀注意力如图3所示。证据图上的注意权熵,来自图的边和节点的KGAT和GAT。为了比较,还显示了均匀权重的熵。熵越小,注意力越集中

边注意力中 KGAT大于GAT大于Uniform
节点注意力中,KGAT大于GAT大于等于Uniform
如下一个实验所示,基于核的节点注意力集中在正确的证据块上,并对检索到的句子进行去噪,这对于声明验证是有用的。
在这里插入图片描述
在这里插入图片描述

**More Accurate Evidence Selection.**本实验通过注意力分配和证据召回来评价KGAT-Node的有效性。结果如图4所示。我们首先从KGAT或GAT获取证据图中的节点注意力得分,并计算每个声明的最大值统计,因为大多数声明只需要单个证据来验证。

**Fine-Grained Evidence Propagation.**第三个分析研究的是KGATEdge的注意力在证据图中的分布,这种分布被用来传播证据线索。

在这里插入图片描述

6 Case Study

表5显示了GEAR(周等,2019)中使用的声明示例和检索到的证据句子,其中前两个是必需的证据片段。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
人工智能(AI)最近经历了复兴,在视觉,语言,控制和决策等关键领域取得了重大进展。 部分原因在于廉价数据和廉价计算资源,这些资源符合深度学习的自然优势。 然而,在不同的压力下发展的人类智能的许多定义特征仍然是当前方法无法实现的。 特别是,超越一个人的经验 - 从婴儿期开始人类智能的标志 - 仍然是现代人工智能的一项艰巨挑战。 以下是部分立场文件,部分审查和部分统一。我们认为组合概括必须是AI实现类似人类能力的首要任务,结构化表示和计算是实现这一目标的关键。就像生物学利用自然和培养合作一样,我们拒绝“手工工程”和“端到端”学习之间的错误选择,而是倡导一种从其互补优势中获益的方法。我们探索如何在深度学习架构中使用关系归纳偏差来促进对实体,关系和组成它们的规则的学习。我们为AI工具包提供了一个新的构建模块,具有强大的关系归纳偏差 - 图形网络 - 它概括和扩展了在图形上运行的神经网络的各种方法,并为操纵结构化知识和生成结构化行为提供了直接的界面。我们讨论图网络如何支持关系推理和组合泛化,为更复杂,可解释和灵活的推理模式奠定基础。作为本文的配套文件,我们还发布了一个用于构建图形网络的开源软件库,并演示了如何在实践中使用它们。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值