作者:李瑾
单位:燕山大学
目录
一、 概述
句子级关系抽取关注的是同一句子内部的实体之间的关系,但实际生活中很多关系存在于多个句子间。
远程监督假设一个实体只对应一种关系,但实际上一个实体对应多种关系,且同一个句子中包含相同的实体对并不一定表示具有相同的关系。因此,使用远程监督进行关系抽取将会带来噪声。
为了降低文档级远程监督的噪声并提高有用信息的作用力,本文提出了包含三个预训练任务的新的预训练模型DocRE。
二、方法
1. 整体框架
整体模型框架图如图所示:
其中, [ E i ] [E_{i}] [Ei] 和 [ / E i ] [/E_{i}] [/Ei]表示实体 e i e_{i} ei的起始、结束标记。 接下来的部分将对该模型做详细介绍。
2.Document Encoder
作者使用Bert作为文档编码器,对包含实体标记的句子编码。对每个实体的所有实体提及做最大池化操作,然后将拼接后的向量表示作为实体的向量表示,通过双线性层,获得不同实体对( e i e_{i} ei, e k e_{k} ek)之间的关系表示: r i , k = B i l i n e a r E ( e i , e k ) . r_{i,k} = Bilinear_{E}(e_{i},e_{k}). ri,k=BilinearE(ei,ek).
3. Mention-Entity Matching
该任务的目的是,从多个实体提及中获取有用的信息来生成实体表示。通过帮助模型生成更好的实体提及表示和实体表示以更好的获取实体间的关系。该预训练任务分为两个子任务:文档内实体提及匹配和文档间实体提及匹配。
① 文档内实体提及
- 目的:匹配被mask掉的实体提及和文档内实体以掌握共指信息(the coreference information)。
- 方法:随机mask掉一个实体提及,预测被mask掉的实体提及属于文档内实体的哪个实体。使用Bilinear来计算匹配度。然后将匹配度分数输入softmax层中。
匹配度计算公式如下:
s m ( e m i , m q ) = B i L i n e a r M ( e m i , m q ) s_{m}(e_{m}^{i},m_{q}) = BiLinear_{M}(e_{m}^{i},m_{q}) sm(emi,mq)=