使用句子级注意力机制结合实体描述的远程监督关系抽取
主要内容:本文提出了基于句子级别的注意力机制去选择有效的实例(与Lin 2016类似),进而充分利用监督语料的信息,并且结合实体描述信息来丰富实例的背景知识。实验结果显示本论文优于所有的基线系统。
一、介绍
远程监督是自动标注训练数据的一个有效方法,但其易出现错误的标注数据问题。
- Mintz(2009)利用所有的标注实例去训练分类器
- Riedel(2010)提出使用至少一个实例的假说,并结合无向图模型进行预测
- Hoffmann(2011)使用概率图模型选择实例(基于多实例学习)并且增加重叠关系到关系抽取系统中
- Zeng(2015)结合多实例学习(MIL)和PCNN来选择最有效的一个实例进行关系预测,且取得当前最好的结果
以方法取得较好的性能,但是仍存在两个缺点:
-
一个包里可能含有多个有效的实例(只取一个会丢失大量的有效信息)
-
对于实例中的实体,若无一个说明,则不确定其表达的是哪个含义(eg:Washington可能表达人名,也可能是地名)
因此,提出本文的创新点: -
使用APCNNs模型----先使用PCNNs抽取出句子的特征向量,再通过隐含层计算每个句子的权重,最后求解特征向量的加权和就是提出的实例特征
-
添加实体描述信息----使用传统CNN从Freebase或Wikipedia中抽取实体特征