Relation Classification via Convolutional Deep Neural Network【论文笔记】

最新推荐文章于 2021-10-25 16:25:15 发布

Chevalier~

最新推荐文章于 2021-10-25 16:25:15 发布

阅读量250

点赞数

分类专栏：知识图谱 NLP知识图谱论文笔记文章标签：关系分类关系抽取 nlp 知识图谱

本文链接：https://blog.csdn.net/qq_32782771/article/details/89162722

版权

知识图谱同时被 2 个专栏收录

17 篇文章 1 订阅

订阅专栏

NLP知识图谱论文笔记

17 篇文章 3 订阅

订阅专栏

一、Background

关系分类的任务是预测名词对之间的语义关系，可以定义如下：给定一个句子S和名词对 $e_1$ 和 $e_2$ ，我们旨在识别 $e_1$ 和 $e_2$ 的关系。对自动关系分类有相当大的兴趣，无论是作为目的本身还是作为各种NLP应用程序的中间步骤。
最具代表性的关系分类方法使用监督学习算法：已经证明这些方法是有效的并且产生相对高的性能。监督方法可以进一步分为基于特征的方法和基于核函数的方法。基于特征的方法使用一系列经过文本分析后的特征。他们将这些特征转换为符号ID，然后使用类似于词袋模型的方法将其转换为向量。相反，基于内核的方法需要以解析树（比如，依赖解析树）的形式预处理的输入数据。这些方法很有效，因为它们利用了大量的语言知识。然而，提取的特征或精心设计的内核通常源自预先存在的NLP系统的输出，这导致现有工具中的错误传播并阻碍这些系统的性能。考虑提取尽可能独立于现有NLP工具的特征是很有吸引力的。
为了识别名词对之间的关系，有必要巧妙地结合句子中不同句法和语义结构的词汇和句子级特征。比如，在句子““The ${[fire]}_{e1}$ inside WTC was caused by exploding ${[fuel]}_{e2}$ ”，为了识别fire和fuel之间的“Cause-Effect”关系，我们通常利用标记的名词实体和整个句子的含义。

二、Motivation

传统方法依赖于特征工程或NLP工具包，使用现有的NLP工具很难设计出高质量的特征，耗费人力，并且容易导致错误传播。

三、Model

3.1 The Neural Network Architecture

图一显示了关系分类模型的网络架构。网络的输入为句子，提取多层次特征，其中较高级别表示输入的更抽象方面。它主要包括以下三个组成部分：单词表示，特征抽取和输出。系统不需要任何复杂的句法或语义预处理，系统的输入是带有两个标记名词的句子。然后单词序列转换为词向量矩阵，接下来，分别提取词法和句子级别特征，然后拼接形成最终特征向量。最后将特征向量喂给softmax进行关系分类。
在这里插入图片描述

3.2 Word Representation

将单词序列转换成词向量矩阵。

3.3 Lexical Level Features

词汇级别特征是决定关系的重要线索。传统的词汇层次特征主要包括名词本身，名词对的类型和实体之间的词序列，其质量在很大程度上取决于现有NLP工具的结果。本文使用通用词嵌入作为基本特征的来源。我们选择标记名词和上下文单词的词嵌入。这些特征全部拼接得到我们的词汇级别特征。表一显示了与句中标记名词有关的词嵌入。

3.4 Sentence Level Features

在本节中，我们提出了一个最大池化的卷积神经网络，以提供句子级别表示并自动提取句子级别的特征。图二显示了句子级特征抽取的框架。在卷积窗口中，每个单词由词特征和位置特征共同表示。

3.4.1 Word Features

分布式假设理论指出，在相同语境中出现的词语往往具有相似的含义。为了捕捉这种特性，WF结合了词向量本身和词周围上下文的向量表示。给定一个句子S： ${[People]}_0\ \ have_1\ \ been_2\ \ moving_3\ \ back_4\ \ into_5\ \ {[downtown]}_6$ 。标记的名词与标签y相关联，标签y定义标记的对包含的关系类型。WF可以表示如下：
${[x_s,x_0,x_1],[x_0,x_1,x_2],...,[x_5,x_6,x_e],\}$

3.4.2 Position Features

关系分类是一个非常复杂的任务。传统地，结构化特征（名词对之间的最短依赖路径）用于解决这个问题。显然，仅通过WF无法捕获此类结构信息。有必要指定哪个输入标记是句子中的目标名词。为此、，提出PF用于关系分类。在本文中，PF是当前词与 $w_1$ 和 $w_2$ 的相对距离的组合。比如，句中的“moving”与“people”、“downtown”的相对距离分别是3和-3。相对距离会转换为一个维度为 $d_e$ 的向量、然后当前词的PF可以表示为 $d_1,d_2]$ 。结合WF和PF为 ${[WF,PF]}^T$ ，输入到卷积模块中。
接下来就是合并词级别特征和句子级别特征，然后进行分类，不再赘述。

四、Experiment

数据集：SemEval-2010 Task 8数据集

五、Conclusion

我们探索了在没有复杂的NLP预处理的情况下进行关系分类的可行性。卷积DNN用于提取词汇和句子级别的特征。为了指定应该为其分配关系标签的单词对，使用位置特征来编码卷积DNN中与目标名词对的相对距离。我们使用SemEval-2010 Task 8数据集进行实验。实验结果表明，所提出的位置特征对于关系分类至关重要。提取的词汇和句子级别特征对于关系分类是有效的。我们的方法优于最先进的方法。