【论文解读 EMNLP 2019 | MOGANED】ED with Multi-Order Graph Convolution and Aggregated Attention

36 篇文章 24 订阅
12 篇文章 16 订阅

论文题目:Event Detection with Multi-Order Graph Convolution and Aggregated Attention

论文来源:EMNLP 2019

论文链接:https://www.aclweb.org/anthology/D19-1582/

代码链接(非官方):https://github.com/wzq016/MOGANED-Implementation

关键词:事件检测,GCN,GAT,attention,句法依存结构,多阶句法关系



1 摘要

对于事件检测(ED)任务,在句法依存树上进行句法关系表示的学习可以更好地捕获候选触发词间和实体间的关联。但是现有的方法仅仅使用了依存树中一阶的句法关系(例如 the arcs)来进行触发词的识别。

本文提出用于ED任务的新方法,MOGANED(Multi-Order Graph Attention Network based method for Event Detection)模型:基于句法依存树使用GCN方法对其建模,并使用attention机制聚合句中多阶的句法信息。

实验证明了本文方法和state-of-the-art相比的优越性。


2 引言

ED任务的目的是识别出句子中的事件触发词并对其分类。如图1所示,ED需要识别出"fired"是"Attack"类型事件的触发词。

基于句法依存树的方法,可以利用句子对应的句法依存树中的句法关联,捕获到不同候选触发词间的关联以及和其相关的实体信息。

触发词和相关实体间的句法关系可以是一阶的,表现为依存树中的直接弧(direct arcs)。它们之间的关系也可以是高阶的(在依存树上的路径大于1跳)。

在ACE 2005数据集上统计得知,51%的和事件相关的实体到其对应的触发词和相关实体的最短距离大于1。如图1所示,“fired”-“evidence”-“became”-“blood”-“soldiers”,需要4跳。

然而,现有的基于依存树的方法只使用了一阶的句法关系。虽然,它们采用堆叠多层GCN的方式来捕获高阶的句法关系,但是,由于GCN的过平滑问题,随着层数的增加,相邻节点的表示会趋于一致。

为了避免这一问题,本文提出MOGANED(Multi-Order Graph Attention Network based method for Event Detection)模型。MOGANED模型使用了一阶句法图高阶句法图,利用了候选触发词的多阶表示。为了计算每个词的多阶表示,作者使用了GAT来衡量该词不同阶邻居的重要性,并分配不同的权重。然后使用注意力机制多阶的表示进行加权求和

实验和state-of-the-art方法对比,证明了本文方法在准确率F1两个度量上的优越性。本文还是第一个将GAT用于ED的工作


3 模型

ED视为多类别分类问题。令 W = w 1 , w 2 , . . . , w n W=w_1, w_2, ..., w_n W=w1,w2,...,wn表示长为 n n n的句子。由于事件触发器可能包含多个单词,因此使用BIO模式对句子做标注。标签数为 2 L + 1 2L+1 2L+1 L L L是事件类型数。

模型由3个模块组成:

(1)词编码模块:将输入的句子编码成向量序列;

(2)多阶图注意力网络(multi-order GAT):在多阶的句法图上应用GAT;

(3)注意力聚合模块:为多阶的表示分配不同的注意力权重,将其聚合,得到单词的表示,用于标签的预测。

模型的整体结构如下图所示(最高阶为3):


## 3.1 词编码模块

和现有的方法操作基本相同,将词嵌入 w o r d i word_i wordi实体类型嵌入 e t i et_i etiPOS-tagging嵌入 p o s i pos_i posi位置嵌入 p s i ps_i psi级联,得到token w i w_i wi的嵌入向量 x i x_i xi。将输入的句子 W W W转换为向量序列 X = x 1 , x 2 , . . . , x n X=x_1, x_2, ..., x_n X=x1,x2,...,xn

由于每个单词仅仅利用它在依存图上的邻居进行更新,和先前的方法一样,作者使用了BiLSTM X X X与其上下文编码成 P = p 1 , p 2 , . . . , p n P=p_1, p_2, ..., p_n P=p1,p2,...,pn作为多阶GAT模块的输入


3.2 多阶图注意力网络

每个句法依存树都可以用邻接矩阵 A A A表示为一阶句法图

一阶句法图的邻接矩阵 A A A包括3个维度均为 n × n n\times n n×n的子矩阵: A a l o n g , A r e v , A l o o p A_{along}, A_{rev}, A_{loop} Aalong,Arev,Aloop。其中,若 w i w_i wi w j w_j wj在句法树上有连边,则 A a l o n g ( i , j ) = 1 A_{along}(i, j)=1 Aalong(i,j)=1,否则为0; A r e v = A a l o n g T A_{rev}=A^T_{along} Arev=AalongT A l o o p A_{loop} Aloop是单位矩阵。

k k k阶句法图的邻接矩阵为 A s u b g k = ( A s u b g ) k A^k_{subg}=(A_{subg})^k Asubgk=(Asubg)k,其中 s u b g ∈ { a l o n g , r e v , l o o p } subg\in {\{along, rev, loop}\} subg{along,rev,loop} A s u b g k A^k_{subg} Asubgk记录了 A s u b g A_{subg} Asubg中所有的 k k k跳路径 A l o o p k = A l o o p A^k_{loop}=A_{loop} Aloopk=Aloop。分别用 a k , b k , c k a^k, b^k, c^k ak,bk,ck表示 A a l o n g k , A r e v k , A l o o p k A^k_{along}, A^k_{rev}, A^k_{loop} Aalongk,Arevk,Aloopk

多阶GAT模块使用多个并行的GAT层,得到多阶句法图的表示,并且在每个句法图进行卷积的过程中,权衡了每个词不同邻居的重要性并分配权重

k k k阶句法图 A k A^k Ak的表示 h i k h^k_i hik是通过 A k A^k Ak子图的表示计算得到的:

其中, f ( ⋅ ) f(\cdot) f()图注意力卷积函数 ⊕ \oplus 元素级别的相加操作。

σ \sigma σ是指数线性单元(ELU); W a , k , ϵ a , k W_{a, k},\epsilon_{a, k} Wa,k,ϵa,k分别是对于 a k a^k ak的权重矩阵和偏置项; u i j u_{ij} uij是更新 w i w_i wi时邻居 w j w_j wj的归一化后的权重。 u i j u_{ij} uij计算如下:

其中, e i j = γ ( W c o m b [ W a t t p i ∣ ∣ W a t t p j ] ) e_{ij}=\gamma(W_{comb}[W_{att}p_i || W_{att}p_j]) eij=γ(Wcomb[WattpiWattpj]) N i \mathcal{N}_i Ni w i w_i wi在子图上的邻居集合; γ \gamma γ是LeakyReLu函数; W c o m b , W a t t W_{comb}, W_{att} Wcomb,Watt是权重矩阵。

在经过图注意力卷积之后,每个候选触发词 w i w_i wi都得到了一组多阶的表示 h i k , k ∈ [ 1 , K ] h^k_i, k\in [1, K] hik,k[1,K] K K K是模块中使用到的最高的阶数


3.3 注意力聚合模块

使用注意力机制对上一步得到的每个词的多阶表示 h i k h^k_i hik进行聚合

其中, v i k v^k_i vik是归一化后的单词 w i w_i wi k k k阶图表示,计算如下:

其中, s i j = t a n h ( W a w a h i j + ϵ a w a ) s^j_i=tanh(W_{awa}h^j_i+\epsilon_{awa}) sij=tanh(Wawahij+ϵawa) W a w a , ϵ a w a W_{awa}, \epsilon_{awa} Wawa,ϵawa分别为权重矩阵和偏置项; c t x ctx ctx是随机初始化的上下文向量,捕获了每一阶图表示的重要性信息。

最后,使用聚合后的表示 h i h_i hi来预测单词 w i w_i wi的触发词标签

其中 y i q y^q_i yiq定义了单词 w i w_i wi标签为 q q q的概率; O i = w o h i + ϵ o O_i=w_oh_i+\epsilon_o Oi=wohi+ϵo w o , ϵ o w_o, \epsilon_o wo,ϵo分别是权重矩阵和偏置项。


3.4 有偏的损失函数

由于标签为 O O O的单词数和有事件标签的单词数相比太多了,所以使用有偏的损失函数来增强事件标签在训练时的影响

其中, N s N_s Ns是句子数; N i , w N_{i, w} Ni,w s i s_i si中的单词数;如果单词标签为 O O O,则 I ( O ) I(O) I(O)为1,否则为0; λ \lambda λ是大于1的参数。


4 实验

数据集:ACE 2005

对比方法

  • CrossEvent:使用文档级别的信息
  • DMCNN:建立了dynamic multi-pooling的CNN模型
  • JRNN:使用双向RNN和人为设计的特征
  • DEEB-RNN:使用有监督的层级注意力以及文档级别的信息
  • dbRNN:在BiLSTM网络中添加句法边以增强模型
  • GCN-ED:基于GCN使用argument pooling机制用于ED
  • JMEE:使用GCN,highway网络和self-attention

实验结果

和state-of-the-art的方法相比,在准确率和F1值两个度量中取得了最优。

对MOGANED模型进行消融实验:

  • MOGANED-First:只使用一阶句法图( K = 1 K=1 K=1);
  • MOGANED-GCN:使用传统的GCN而不使用GAT;
  • MOGANED-Mean:使用mean pooling作为对单词多阶表示的注意力聚合。

5 总结

本文提出MOGANED模型用于事件检测(ED)任务,模型使用GAT多阶的表示进行了建模,并应用注意力机制聚合多阶表示以更好地捕获依存树中的上下文信息。实验结果显示其在准确率F1值两个度量上实现了最优。

2020有学者提出新的模型RA-GCN在F1值上超越了MOGANED,但没有在准确率上超越超越MOGANED。


模型针对现有的基于GCN的ED方法的同一缺点:只能直接利用一阶的句法关系,虽然堆叠多层GCN可以捕获多阶的句法关系,但是GCN有过平滑的问题,层数太多的话相邻节点的表示会趋于一致。

MOGANED模型的思想很直接,将邻接矩阵根据原始边反向边自环分为3个子矩阵,对这些矩阵求 k k k次幂就得到了 k − h o p k-hop khop路径的邻接矩阵。在 1 1 1~ K K K阶的句法图上使用GAT,就得到了多阶句法图的表示。然后再使用注意力机制对单词在多阶句法图上的表示进行聚合,得到单词最终的表示,就可以用于分类预测了。

和以往的基于GCN的方法一样,MOGANED模型只将邻接矩阵根据原始边、反向边、自环分为了3个子矩阵,因此在建模时没有考虑到句法关系标签的多样性只利用了句法结构的信息。(RA-GCN模型两个信息都使用到了)

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值