关系抽取综述

最新推荐文章于 2023-02-18 11:25:05 发布

置顶

羽_羊

最新推荐文章于 2023-02-18 11:25:05 发布

阅读量8.9k

点赞数 9

分类专栏：关系抽取文章标签：关系抽取关系分类信息抽取远程监督

本文链接：https://blog.csdn.net/m0_38031488/article/details/80548949

版权

本文概述了关系抽取，将其视为信息抽取的关键任务，介绍有监督学习方法中的关系分类，尤其是关注远程监督的挑战和解决方案。文章讨论了注意力机制如何缓解错误标签的影响，并探讨了词特征、PCNN和位置信息在深度学习模型中的应用，以提高关系抽取的准确性。

摘要由CSDN通过智能技术生成

1引言

关系抽取是信息抽取的重要子任务，其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据，关系抽取主要负责从文本中识别出实体，抽取实体间的语义关系。现有主流关系抽取技术分为有监督关系抽取，无监督关系抽取，和半监督关系抽取三种方法。这里，我们主要对有监督的关系抽取方法进行介绍。

有监督的学习方法将关系抽取任务当做分类问题，根据训练数据设计有效的特征，从而学习各种分类模型，然后使用训练好的分类器预测关系。有监督的学习方法是目前关系抽取较为主流也是表现最好的方法，但其最大的缺点就是需要大量的人工标注语料。如何获得大量的有标注语料就成为了我们工作的重点，远程监督方法就由此孕育而生。远程监督方法^[¹^]，将已有的知识库对应到丰富的非结构化数据中，从而生成大量的训练数据，从而训练关系抽取器。但是其也存在着非常明显的缺点：

1）生成大量的训练数据必然存在着准确率问题，如何解决错误训练数据的问题是我们工作的一个重点。

2）NLP工具带来的误差，比如NER，parsing等，越多的特征工程就会带来越多的误差，在整个任务的 pipeline 上会产生误差的传播和积累，从而影响后续关系抽取的精度。

2 attention

对于一个知识库难免会有一些错误的label，而使用远程监督方法扩充数据集更是会引入大量的噪声数据，我们使用attention机制就是来解决问题1中错误训练数据问题的。给定一个实体对和其对应的关系，传统的方法在无标签的语料集中提取所有包含该实体对的句子，并认为这样的句子中实体也存在同样的关系。很明显，这种方法会因为一些噪音语料而影响训练效果，所以引入attention机制^[²^]，给不同的语料赋予不同的权重，尽量减轻错误label的负面影响，以此来提升分类器的性能。

这是未来我们工作中的一个改进点，目前我认为使用attention机制来减缓错误标签对分类器的影响是可行的。但是使用何种级别的attention机制，目前我还没有一个很明确的想法，将会再以后的工作中逐渐完善。