论文笔记 EMNLP 2020|Graph Transformer Networks with Syntactic and Semantic Structures for Event Argument

hlee-top

已于 2022-03-30 23:44:49 修改

阅读量570

点赞数

分类专栏： NLP 论文文章标签：自然语言处理深度学习事件论元抽取

于 2021-12-28 20:13:00 首次发布

本文链接：https://blog.csdn.net/o11oo11o/article/details/122190381

版权

NLP 同时被 2 个专栏收录

125 篇文章 14 订阅

订阅专栏

论文

125 篇文章 12 订阅

订阅专栏

文章目录

1 简介

论文题目：Graph Transformer Networks with Syntactic and Semantic Structures for Event Argument Extraction
论文来源：EMNLP 2020
论文链接：https://arxiv.org/pdf/2010.13391.pdf

1.1 创新

同时使用句法和语义结构，以帮助在论元抽取中学习到高效的向量表示，使用Graph Transformer Networks(GTN)对这两种结构进行融合。
为了提高GTN的泛化性，防止过拟合，使用了Information Bottleneck，在loss函数中加入了互信息。

2 方法

模型的整体框架主要分为下面四个部分：

Sentence Encoding: 每个token被表示为bert编码向量和到论元、触发词的距离编码，然后经过BiLSTM进行得到 $H=h_1,...,h_N$
Structure Generation: 此模块包括句法结构生成和语义结构生成。
句法结构生成：句法结构依赖树 $A^d$ 对触发词和候选论元不可知，为了解决这个问题，根据触发词和候选论元到其他词的路径长度，提出两个特殊定制的句法结构。对于候选论元，首先计算候选论元到其余词的距离 $d_i^a$ ,然后通过查表映射为 $\widehat{d}_i^a=D[d_i^a]$ ,然后生成一个论元句法结构 $A^a={\{s_{i,j}^a\}}_{i,j=1..N}$ 其中 $s_{i,j}^a$ 的计算公式如下,同理可以得到触发词句法结构 $A^e={\{s_{i,j}^e\}}_{i,j=1..N}$
$s_{i,j}^a=sigmoid(FF([\widehat{d}_i^a,\widehat{d}_j^a,\widehat{d}_i^a{\odot}\widehat{d}_j^a,|\widehat{d}_i^a-\widehat{d}_j^a|,|\widehat{d}_i^a+\widehat{d}_j^a|]))$
语义结构生成：语义结构利用句子中 $w_i$ 和 $w_j$ 的上下文语义来学习一对单词 $w_i;w_j)$ 的重要性得分。语义结构 $A^s={\{s_{i,j}^s\}}_{i,j=1..N}$ 的计算公式如下(左式)，左式对触发词和候选论元不可知，因此使用右式加入候选论元和触发词的上下文语义信息。

Structure Combination：此模块对上述模块的不同结构 $A=[A^d,A^a,A^e,A^s]$ 进行融合,首先添加一个identity矩阵， $A=[A^d,A^a,A^e,A^s,I]=[A_1,A_2,A_3,A_4,A_5]$ ,Graph Transformer Networks(GTN)生成C个通道，每个通道M个中间结构 $Q^i_1,Q^i_2,...,Q^i_M$ ，在GTNs中 $Q^i_j$ 的计算公式为 $Q^i_j={\sum}_{v=1..5}{\alpha}^i_{j,v}A_v$ ,为了在第i个通道中捕捉multi-hop路径，令 $Q^i=Q^i_1×Q^i_2×...Q^i_M$ ,然后使用每个结构进行GCN，公式如下，此时每个token的表示为 $h'_i=[h_i^{-1,G},h_i^{-2,G},h_i^{-3,G},...,h_i^{-C,G}]$ ,然后令R=[h’_a,h’_e,MaxPool(h’_1,h’_2,…,h’_N)],最后进行分类。

loss函数为： $\mathcal{L}_{pred}=-P(y|W,a,t)$
Model Regularization: GTN模型的高表示学习能力可能导致仅记住特定于训练数据的信息(即过拟合)。因此将GTN模型看作Information Bottleneck (IB)，最小化GTN产生的向量 $H'=h'_1,h'_2,...,h'_N$ 和BiLSTM产生的句子编码H=h_1,h_2,…,h_N,为了便于计算互信息，首先利用max-pooling操作令 $h=MaxPool(h_1,h_2,...,h_N)$ , $h'=MaxPool(h'_1,h'_2,...,h'_N)$ 。由于它们都是高维向量，计算量较大，因此使用mutual information neural estimation方法估计互信息，通过对抗学习可变鉴别器的损失函数估计互信息，互信息被定义为h和h’两个向量的联合和边缘分布的KL散度，取样[h,h’]作为正例， $[h,\widehat{h})$ ( $\widehat{h}$ 为其他句子的BiLSTM编码)为负例，然后经过两层全连接层D进行分类，D的损失函数作为互信息的估计，公式如下：

总loss为： $\mathcal{L}=\mathcal{L}_{prec}+{\alpha}_{disc}\mathcal{L}_{disc}$

3 实验

使用数据集为ACE 2005和TAC KBP 2016，实验结果如下图：
在这里插入图片描述

消融实验结果：

在不同长度句子中的实验结果：

hlee-top

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
论文笔记 EMNLP 2020|Graph Transformer Networks with Syntactic and Semantic Structures for Event Argument

文章目录1 简介1.1 创新2 方法3 实验1 简介论文题目：Graph Transformer Networks with Syntactic and Semantic Structures for Event Argument Extraction论文来源：EMNLP 2020论文链接：https://arxiv.org/pdf/2010.13391.pdf1.1 创新同时使用句法和语义结构，以帮助在论元抽取中学习到高效的向量表示，使用Graph Transformer Networks(
复制链接

扫一扫