Deep Residual Learning for Weakly-Supervised Relation Extraction
一、Introduction
关系抽取任务是在句子中预测实体的关系和属性。关系抽取是构建关系知识图谱的关键部分,对NLP应用也至关重要,比如结构化搜索、情感分析、问答和摘要等等。
关系抽取的一个主要难点就是缺少大量标注数据。远程监督大放异彩,解决了这个问题,它利用知识库的事实来对无标签数据进行标注。在远程监督的所有机器学习方法中,最近提出的CNN模型实现了STOA的效果。紧接着,Zeng et al.(2015)提出了分段最大池化的策略来改进CNN。然后各种CNN的attention机制被提出,取得了不错的结果。然而这些关系抽取模型大都是浅层的CNN模型,只有一个CNN层和一个全连接层,并且目前尚不清楚更深层次的模型是否可以在这项任务中的噪音输入提取到有用的信息。
二、Motivation
然而这些关系抽取模型大都是浅层的CNN模型,只有一个CNN层和一个全连接层,并且目前尚不清楚更深层次的模型是否可以在这项任务中的噪音输入提取到有用的信息。因此,作者基于残差学习设计了一个新颖的CNN架构。
三、Model
模型架构如图一所示。
3.1 Vector Representation
xi表示句子的第i个单词,e1,e2是两个对应的实体。每个单词通过词向量WFi和位置向量PFi拼接进行表示。vi=[WFi,PFi]
位置向量是当前词与第一个实体和第二个实体的相对距离的组合。比如句子"Steve Jobs is the founder of Apple",founder与实体Steve Jobs和实体Apple的距离分别为3和-2。然后我们通过一个随机初始化的位置向量矩阵Vp∈Rdp×∣∣P∣∣将相对距离转换为实值向量,P是固定大小的距离集合。如果一个词与实体距离太远,那该单词可能与关系无关。因此,我们对相对距离设了上下限。
3.2 Convolution
接下来是卷积操作,在窗口大小为h个单词上进行卷积,得到一系列特征。ci=f(w∗xi:i+h−1+b)
3.3 Residual Convolution Block
残差学习直接将低级别表示连接到高级别表示,并解决了深度网络中梯度消失问题。在模型中,我们通过shortcut连接设计了残差卷积块。每个残差卷积块由两层卷积层组成,每一卷积层后接ReLU非线性层。
第一层卷积:ci^=f(w1∗ci:i+h−1+b1)第二层卷积:hat{c}_{i:i+h-1}+b_2)ci~=f(w2∗c^i:i+h−1+b2)
残差连接:c=c+c~
3.4 Max Pooling, Softmax Output
经过残差卷积块后,接最大池化层:c^=max{c}。然后经过softmax输出关系的概率分布。
四、Experiment
- 数据集:NYT
- CNN-B:CNN baseline,一层卷积,一层全连接
- CNN+ATT:CNN-B在示例学习上加attention
- PCNN+ATT:Piecewise CNN-B加上attention
- CNN:一层卷积,三层全连接
- CNN-x:深层CNN模型,有x层卷积层。CNN-9表示9层卷积(1+4层残差卷积不包括identity shortcut+3层全连接)
- ResCNN-x:在CNN-x基础上加残差连接。
五、Conclusion
作者是第一个在弱监督关系抽取中使用基于残差学习的深度CNN,效果远超于其它CNN架构,实现了STOA效果,使用shortcut反馈方法进行的唯一映射可以轻松应用于CNN的任何变体以进行关系提取。