Paper: (EMNLP2020)Double Graph Based Reasoning for Document-level Relation Extraction
Link: https://www.aclweb.org/anthology/2020.emnlp-main.127.pdf
Code: https://github.com/PKUnlp-icler/GAIN
这是一篇进行篇章级关系抽取任务的工作。在Intro部分,作者首先提出了篇章级关系抽取任务的难点:
-
同一三元组中的头实体和尾实体可能存在于不同的句子中, 因此三元组的抽取不能只依赖于一个句子;
-
同一个entity可能在不同的句子中出现过多次,有多个不同的entity mention.
-
许多三元组的抽取需要融入一定的逻辑推理
为了解决以上难点,本文提出了Graph Aggregation-and-Inference Network(GAIN) , 主要由以下部分构成
-
Encoding Module: 将篇章中的每个词转化成embedding的表示,通过BiLSTM或其他模型对学习每个词基础的语义表示;
-
Mention-level Graph Aggregatin Module: 为了建模篇章级别的信息,以及mentions和entities之间的关联,构建了mention级别的异质图 Mention-level Graph (MG).
-
MG包含两种节点: mention节点和document节点, 每个mention节点代表一个具体实体的mention。
-
MG包含三种类型的边:
- Intra-Entity Edge: 连接同一实体的不同mention;
- Inter-Entity Edge: 连接出现在同一句子中的两个不同实体;
- Document Edge: 连接document节点与每个mention节点(在不同的mentions间建立联系,减少篇章造成的长距离依赖问题)。
- 通过GCN进行节点间信息的聚合,将所有GCN层得到的节点表示拼接起来,作为最终的节点表示。
-
-
Entity-level Graph Inference Module:
-
节点: 将MG中同一entity的不同mentions对应的节点融合,作为EG中的entity节点。
-
边: 融合MG中连接相同两个实体的边,根据当前entity的表示计算新的实体间的边表示;
-
基于边的表示,篇章中任意两个entity间的路径表示如下所示 (其中,在本文中只研究这种两个实体间存在两跳的情况):
-
由于同一实体对之间可能有不止一条路径,因此通过attention机制来融合不同路径中包含的两实体间关系的信息:
-
-
Classification Module:
分类模块,根据EG中得到的实体表示及实体间路径的表示,进行两实体间关系的分类。
最终,GAIN模型在DocRED数据集上取得了新的sota效果。在实验分析中,作者分别GAIN的不同模块,来探究各个模块的具体作用。
了解更多深度学习相关知识与信息,请关注公众号深度学习的知识小屋