来源:
ACL 2019
地址:
https://arxiv.org/abs/1906.07510
推荐理由:
基于依赖的模型可以捕捉从表面看十分模糊的非局部句法关系,也诞生了一些剪枝策略提升性能。然而基于规则的剪枝策略可能会删去一些重要信息。本文提出了一种新的Attention Guided Graph Convolutional Networks (AGGCNs),直接在全树上工作。开发了一种软剪枝策略。将原始依赖树转换为完全连通的边缘加权图。 这些权重可以看作是节点之间相关性的强度,且可以通过使用attention以端到端的方式学习((Vaswani et al., 2017).。
为了对全连通图编码,为GCN模型引入密集连接(densely connection)。
对于GCN,我们需要 L层来捕获L跳离开的邻域信息。浅层的GCN只能捕获有限的非局部相互作用。但是,虽然更深层次的GCN可以捕捉到更丰富的邻域信息,但从经验上看,用2层模型获得了最佳性能。在密集连接的帮助下,我们能够训练深度较大的AGGCN模型,允许捕获丰富的局部和非局部依赖信息。
实验显示不论是文档级还是句子级数据集,本模型都能取得最好的效果。
code: http://www.statnlp.org/research/information-extraction
2.AGGCN模型结构为:
它由M个相同的块组成,每块均为右图结构。(各包括了三种神经网络层)。每个块都以node embedding和表示图的邻接矩阵作为输入。
然后N个attention引导的邻接矩阵,通过mutil—head attention 构造。 将原始的依赖树转化为N个不同的全连通边加权图。边上的数字表示权重,然后结果矩阵输入至N个独立的密连接层内,左上角图为一个 (3子层的) 密连接层的例子(子层数为一个超参数)。
最后, 每个子层将所有前面的输出作为输入连接起来。最后, 采用线性组合将N个密连层的输出组合成隐藏表示。