关系抽取被广泛的应用于NLP领域的多个任务中,而远程监督方法的兴起为关系抽取添加了一把双刃剑。一方面远程监督可以基于少量的标注语料自动的扩展出大量的标注数据。另一方面,错误标签带来的大量无关噪声也为关系抽取的准确度带来了不小的挑战。
本文从三篇NLP顶级会议论文出发来分析解决这个问题。如图一所示,我们的挑战主要来自两个方面。首先如何将输入句子向量化的表示,采用何种算法或者手段进行特征提取,如何将word embedding之后的句子进行提取特征,使得句子数字化的同时而又最大程度的保留了原始信息。其次,我们如何解决错误标签问题,使得大量带噪声的数据对我们实验结果的影响最小,如果不对错误标签进行消噪的话,我们特征提取的越准确,那么可能对我们分类器的错误影响也就越大。
Distant Supervision for Relation Extraction via Piecewise
Convolutional Neural Networks (EMNLP 2015)
PCNN提出的原因:McDonald and Nivre(2007) 研究发现句法分析的准确性随着句子长度的增加而明显的下降。而我们的实验数据如下图所示往往又是较长的句子。
Vector Representation
Word Embeddings :使用word2vector进行单词短语的向量化表示
Position Embeddings :对于一个包含两个实体的句子,我们对每个单词加上位置信息,即该单词到实体1的距离和到实体2的距离。
Vector:d = dw + dp ∗2
Convolution
在关系抽取特征提取这块卷积神经网络被青睐的原因。我们所处理的输入是一个仅包含一对已被标记实体的句子,且基于远程监督学习的大胆假设这对实体仅表达一个关系。我们可以理解为输入为一个向量矩阵,而输出为一个实值概率。所以我们仅需从所有的局部特征中预测出全局关系即可,应用卷积神经网络就成为了一个很自然的想法了。但对于关系抽取中联合学习的一个变种就不太适用了,其根本想法是将一个输入句子转化为一个带标签的序列,在利用规定好的标签规则完成关系的确定。所以其本质是序列到序列的训练,使用LSTM会获得良好的表现。