1.1 将关系抽取由句子级扩展到文档级的原因
目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系,在实践中受到不可避免的限制:在真实场景中,大量的关系事实是以多个句子表达的。文档中的多个实体之间,往往存在复杂的相互关系。
1.2 文档级关系抽取数据集DocRED
19年的ACL上提出了一个关系抽取数据集DocRED,为文档级关系抽取的研究提供了一个非常好的标注数据集,今年的ACL上,就有论文使用DocRED作为语料,提出了文档级关系抽取的模型。
DocRED包含对超过5000篇Wikipedia文章的标注,包括96种关系类型、143,375个实体和56,354个关系事实。这在规模上超越了以往的同类精标注数据集。与传统的基于单句的关系抽取数据集相比,不同之处在于,DocRED中超过40%的关系事实只能从多个句子中联合抽取,因此需要模型具备较强的获取和综合文章中信息的能力,尤其是抽取跨句关系的能力。
1.3 图神经网络
图神经网络能够更好地在文档层面上建立实体之间的联系,从而实现文档级的关系推理。因此在解决文档级实体关系抽取任务中,图神经网络是主流的方法。
2.1 图网络结构的分类
在使用图神经网络时,图的构造是关键的一个环节,根据是否需要区分图中边的类型,可以将图分为异质图和同质图。
- 异质网络图
这种图定义了不同类型的边,边的表示方式因类型不同而有所区别,主要的代表工作是GCNN、EOG。 - 同质网络图 (latent structure)
把所有的边当作同质关系进行处理,利用attention或者其他的方式自动进行区分,主要的代表是LSR。
2.2 GCN
图卷积神经网络是一个很好地在图结构上进行特征抽取的神经网络模型,在图网络上进行卷积,简单的说就是是用=邻接节点的特征,更新节点自己的向量表达,达到特征传递的目的。使用GCN时,首先构建一个无向图,然后计算图的邻接矩阵A i j A_{ij}Aij,下面是GCN的一般形式:
这里需要注意的是GCN只能在同质网络图上使用,即不区分边的类型,所有的边在进行特征传递时进行相同的处理。而且上面的GCN一般形式只能在无向图中使用,如果是有向图,则需要针对问题进行调整。
GCN每次卷积过程中,节点通过跟自己相连接的节点的向量表示更新自己的向量表达。下图展示了GCN的卷积过程,第一次卷积操作过后节点使用一阶邻接节点的特征更新自己的状态