研究要点
- 词汇级别和句子级别特征的提取。
- 卷积神经网络进行名词实体之间关系的分类。
论文所用模型
Relation Classification via Convolutional Deep Neural Network
关系分类的整体模型结构如图:
系统的输入是一个有两个标记名词的句子。然后,通过查找单词嵌入将单词标记转换为向量。接着,分别提取词法特征和句子级特征,然后直接连接形成最终特征向量。最后,为了计算每个关系的置信度,将特征向量输入到一个SoftMax分类器中。分类器的输出是一个向量,其维数等于预定义的关系类型的数目。每个维度的值是对应关系的置信度得分。
词级别的特征提取
词级别特征包括:
两个名词实体的词向量,两个标记名词左右相邻词的,以及标记名词的上位词(WordNet,是一个相关联的词库)拼接起来,作为句子的词汇级别特征。
句子级别特征
词向量特征不能获取长的句子序列特征和语义语序组合性,因此将句子级特征进一步表示为本单词和相邻单词的词向量WF,单词到两个目标名词的距离PF。
PF包含位置信息,在使用时与句子的词向量表示拼接。如图,WF和PF向量输入最大池化的CNN,通过非线性变换得到句子级别的特征。
Experiments
可以看出句子级别特征的加入,对关系分类模型最终的效果有明显提升