关系抽取综述

1引言

    关系抽取是信息抽取的重要子任务,其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,关系抽取主要负责从文本中识别出实体,抽取实体间的语义关系。现有主流关系抽取技术分为有监督关系抽取,无监督关系抽取,和半监督关系抽取三种方法。这里,我们主要对有监督的关系抽取方法进行介绍。

    有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。有监督的学习方法是目前关系抽取较为主流也是表现最好的方法,但其最大的缺点就是需要大量的人工标注语料。如何获得大量的有标注语料就成为了我们工作的重点,远程监督方法就由此孕育而生。远程监督方法[1],将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据,从而训练关系抽取器。但是其也存在着非常明显的缺点:

1)生成大量的训练数据必然存在着准确率问题,如何解决错误训练数据的问题是我们工作的一个重点。

2)NLP工具带来的误差,比如NER,parsing等,越多的特征工程就会带来越多的误差,在整个任务的 pipeline 上会产生误差的传播和积累,从而影响后续关系抽取的精度。

2 attention

  对于一个知识库难免会有一些错误的label,而使用远程监督方法扩充数据集更是会引入大量的噪声数据,我们使用attention机制就是来解决问题1中错误训练数据问题的。给定一个实体对和其对应的关系,传统的方法在无标签的语料集中提取所有包含该实体对的句子,并认为这样的句子中实体也存在同样的关系。很明显,这种方法会因为一些噪音语料而影响训练效果,所以引入attention机制[2],给不同的语料赋予不同的权重,尽量减轻错误label的负面影响,以此来提升分类器的性能。

这是未来我们工作中的一个改进点,目前我认为使用attention机制来减缓错误标签对分类器的影响是可行的。但是使用何种级别的attention机制,目前我还没有一个很明确的想法,将会再以后的工作中逐渐完善。

  • 9
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值