Relation Classification via Convolutional Deep Neural Network【论文笔记】

一、Background

  关系分类的任务是预测名词对之间的语义关系,可以定义如下:给定一个句子S和名词对 e 1 e_1 e1 e 2 e_2 e2,我们旨在识别 e 1 e_1 e1 e 2 e_2 e2的关系。对自动关系分类有相当大的兴趣,无论是作为目的本身还是作为各种NLP应用程序的中间步骤。
  最具代表性的关系分类方法使用监督学习算法:已经证明这些方法是有效的并且产生相对高的性能。监督方法可以进一步分为基于特征的方法和基于核函数的方法。基于特征的方法使用一系列经过文本分析后的特征。他们将这些特征转换为符号ID,然后使用类似于词袋模型的方法将其转换为向量。相反,基于内核的方法需要以解析树(比如,依赖解析树)的形式预处理的输入数据。这些方法很有效,因为它们利用了大量的语言知识。然而,提取的特征或精心设计的内核通常源自预先存在的NLP系统的输出,这导致现有工具中的错误传播并阻碍这些系统的性能。考虑提取尽可能独立于现有NLP工具的特征是很有吸引力的。
  为了识别名词对之间的关系,有必要巧妙地结合句子中不同句法和语义结构的词汇和句子级特征。比如,在句子““The [ f i r e ] e 1 {[fire]}_{e1} [fire]e1 inside WTC was caused by exploding [ f u e l ] e 2 {[fuel]}_{e2} [fuel]e2”,为了识别fire和fuel之间的“Cause-Effect”关系,我们通常利用标记的名词实体和整个句子的含义。

二、Motivation

  传统方法依赖于特征工程或NLP工具包,使用现有的NLP工具很难设计出高质量的特征,耗费人力,并且容易导致错误传播。

三、Model

3.1 The Neural Network Architecture

  图一显示了关系分类模型的网络架构。网络的输入为句子,提取多层次特征,其中较高级别表示输入的更抽象方面。它主要包括以下三个组成部分:单词表示,特征抽取和输出。系统不需要任何复杂的句法或语义预处理,系统的输入是带有两个标记名词的句子。然后单词序列转换为词向量矩阵,接下来,分别提取词法和句子级别特征,然后拼接形成最终特征向量。最后将特征向量喂给softmax进行关系分类。
在这里插入图片描述
在这里插入图片描述

3.2 Word Representation

  将单词序列转换成词向量矩阵。

3.3 Lexical Level Features

  词汇级别特征是决定关系的重要线索。传统的词汇层次特征主要包括名词本身,名词对的类型和实体之间的词序列,其质量在很大程度上取决于现有NLP工具的结果。本文使用通用词嵌入作为基本特征的来源。我们选择标记名词和上下文单词的词嵌入。这些特征全部拼接得到我们的词汇级别特征。表一显示了与句中标记名词有关的词嵌入。

3.4 Sentence Level Features

  在本节中,我们提出了一个最大池化的卷积神经网络,以提供句子级别表示并自动提取句子级别的特征。图二显示了句子级特征抽取的框架。在卷积窗口中,每个单词由词特征和位置特征共同表示。

3.4.1 Word Features

  分布式假设理论指出,在相同语境中出现的词语往往具有相似的含义。为了捕捉这种特性,WF结合了词向量本身和词周围上下文的向量表示。给定一个句子S: [ P e o p l e ] 0    h a v e 1    b e e n 2    m o v i n g 3    b a c k 4    i n t o 5    [ d o w n t o w n ] 6 {[People]}_0\ \ have_1\ \ been_2\ \ moving_3\ \ back_4\ \ into_5\ \ {[downtown]}_6 [People]0  have1  been2  moving3  back4  into5  [downtown]6。标记的名词与标签y相关联,标签y定义标记的对包含的关系类型。WF可以表示如下:
{ [ x s , x 0 , x 1 ] , [ x 0 , x 1 , x 2 ] , . . . , [ x 5 , x 6 , x e ] , } \{[x_s,x_0,x_1],[x_0,x_1,x_2],...,[x_5,x_6,x_e],\} {[xs,x0,x1],[x0,x1,x2],...,[x5,x6,xe],}

3.4.2 Position Features

  关系分类是一个非常复杂的任务。传统地,结构化特征(名词对之间的最短依赖路径)用于解决这个问题。显然,仅通过WF无法捕获此类结构信息。有必要指定哪个输入标记是句子中的目标名词。为此、,提出PF用于关系分类。在本文中,PF是当前词与 w 1 w_1 w1 w 2 w_2 w2的相对距离的组合。比如,句中的“moving”与“people”、“downtown”的相对距离分别是3和-3。相对距离会转换为一个维度为 d e d_e de的向量、然后当前词的PF可以表示为 [ d 1 , d 2 ] [d_1,d_2] [d1,d2]。结合WF和PF为 [ W F , P F ] T {[WF,PF]}^T [WF,PF]T,输入到卷积模块中。
  接下来就是合并词级别特征和句子级别特征,然后进行分类,不再赘述。

四、Experiment

  • 数据集:SemEval-2010 Task 8数据集
    在这里插入图片描述
    在这里插入图片描述

五、Conclusion

  我们探索了在没有复杂的NLP预处理的情况下进行关系分类的可行性。 卷积DNN用于提取词汇和句子级别的特征。为了指定应该为其分配关系标签的单词对,使用位置特征来编码卷积DNN中与目标名词对的相对距离。我们使用SemEval-2010 Task 8数据集进行实验。 实验结果表明,所提出的位置特征对于关系分类至关重要。 提取的词汇和句子级别特征对于关系分类是有效的。 我们的方法优于最先进的方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值