一、研究背景
关系抽取可以被认为是一个多类的分类问题,并且可能由于缺乏用于训练的标记数据而受到影响。为了解决这个问题,可以使用Distant Supervision(远程监督)来给数据集快速打上标签,即如果我们训练语料中的句子所包含的实体对在数据库中有关系的体现,那么我们认为语料库中所有包含相同实体对的句子都表达此关系。
远程监督可以基于少量的标注语料自动的扩展出大量的标注数据。然而这样容易产生错误标注,错误标签带来的大量无关噪声也为关系抽取的准确度带来了不小的挑战。
二、模型介绍
论文Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks使用 PCNNs+MIL(分段卷积神经网络+多实例学习)方法进行关系分类。PCNN模型结构如图:
图中的Vector Representation 由分词的Word Embeddings (使用word2vector进行单词短语的向量化表示)和Position Embeddings (对于一个包含实体对的句子,我们对每个单词加上位置信息,即该单词到实体1的距离和到实体2的距离)拼接而成。Position Embeddings是分词分别和两个实体的距离。例如下面例子中的 ‘son’ 的pos1和pos2分别是3和-2。
使用不同的卷积核来对Vector Representation完成卷积操作,本文中卷积核的数量为3。
分段最大池化(Piecewise Max Pooling)将卷积结果分为三部分,每部分做最大池化(也可将Word Embeddings和Position Embeddings对应的Vector Representation分为三部分,卷积后分别做最大池化 )。与单个最大池化对比,避免了隐藏层过快减小,可提取细粒度特征。最后模型接入全连接层输出分类置信。
三、多示例学习
多示例学习(Multi-instance Learning)是为了解决远程监督造成的错误标签,在这个关系分类任务中主要体现在计算输出层的loss上面,即取每个bag中条件概率最大的那个instance,看做整个bag的代表,进行loss计算,并进行反向传播。其loss计算公式: