论文浅尝 | 基于局内去噪和迁移学习的关系抽取

640?wx_fmt=png


动机


在远程监督任务中,除了语料的错误标注问题,还存在句内噪声单词过多的问题,即多数句子都存在一些与表达关系无关的词汇,这个问题未有人关注。当前研究的另一个问题是,句子特征抽取器采用随机初始化的方法,存在不健壮的问题。

针对句内噪声的问题,本文采用子树解析的方法,去除与表达关系不相关的词汇;针对关系抽取器不健壮的问题,本文采用迁移学习的方法,用实体分类对模型的参数做预训练。


方法

640?wx_fmt=png

本文方法包括三个部分:

(1)     子树解析。首先对句子做句法解析,然后找到两个实体最近的共有祖先,最后取以该节点为根节点的子树,保留句子中的这部分,其余部分丢弃。

(2)     构造含有多个注意力机制的关系抽取器。采用BGRU作为句子语义抽取器,抽取器中添加面向单词的注意力和面向实体的注意力。然后采用面向句子的注意力方法,结合一个实体对对齐的多个句子的信息作为实体对间关系的语义表示,用于后续的关系分类。

(3)     参数迁移初始化。将模型部分结构用于实体类型分类任务,训练得到的参数用作关系抽取器相应参数的初始化。

 

实验


实验进行了 held-out evaluation manual evaluation,结果如下图所示,可见取得了较好的效果。

 

640?wx_fmt=png

640?wx_fmt=png

笔记整理:刘兵,东南大学计算机博士,研究方向为自然语言处理、信息抽取。



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

点击阅读原文,进入 OpenKG 博客。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值