论文笔记|Denoising Relation Extraction from Document-level Distant Supervision

作者:李瑾
单位:燕山大学


论文地址


一、 概述

  句子级关系抽取关注的是同一句子内部的实体之间的关系,但实际生活中很多关系存在于多个句子间。

  远程监督假设一个实体只对应一种关系,但实际上一个实体对应多种关系,且同一个句子中包含相同的实体对并不一定表示具有相同的关系。因此,使用远程监督进行关系抽取将会带来噪声。

  为了降低文档级远程监督的噪声并提高有用信息的作用力,本文提出了包含三个预训练任务的新的预训练模型DocRE。

二、方法

1. 整体框架

  整体模型框架图如图所示:

  其中, [ E i ] [E_{i}] [Ei] [ / E i ] [/E_{i}] [/Ei]表示实体 e i e_{i} ei的起始、结束标记。 接下来的部分将对该模型做详细介绍。

2.Document Encoder

  作者使用Bert作为文档编码器,对包含实体标记的句子编码。对每个实体的所有实体提及做最大池化操作,然后将拼接后的向量表示作为实体的向量表示,通过双线性层,获得不同实体对( e i e_{i} ei, e k e_{k} ek)之间的关系表示: r i , k = B i l i n e a r E ( e i , e k ) . r_{i,k} = Bilinear_{E}(e_{i},e_{k}). ri,k=BilinearE(ei,ek).

3. Mention-Entity Matching

  该任务的目的是,从多个实体提及中获取有用的信息来生成实体表示。通过帮助模型生成更好的实体提及表示和实体表示以更好的获取实体间的关系。该预训练任务分为两个子任务:文档内实体提及匹配和文档间实体提及匹配。

① 文档内实体提及

  • 目的:匹配被mask掉的实体提及和文档内实体以掌握共指信息(the coreference information)。
  • 方法:随机mask掉一个实体提及,预测被mask掉的实体提及属于文档内实体的哪个实体。使用Bilinear来计算匹配度。然后将匹配度分数输入softmax层中。
    匹配度计算公式如下:

s m ( e m i , m q ) = B i L i n e a r M ( e m i , m q ) s_{m}(e_{m}^{i},m_{q}) = BiLinear_{M}(e_{m}^{i},m_{q}) sm(emi,mq)=

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值