Achuan读论文:Distant Supervision for Relation Extraction via PiecewiseConvolutional Neural Networks

Distant Supervision for Relation Extraction via PiecewiseConvolutional Neural Networks

基于分段卷积神经网络的远程监督关系抽取

论文源地址:https://aclanthology.org/D15-1203/

摘要

在使用远程监督进行关系抽取时,存在两个问题。首先,在这种方法中,一个已经存在的知识库启发式地与文本对齐,并且对其结果被视为标记数据。但是,这种启发式对齐可能会失败,导致错误的标签问题。此外,在以前的方法中,统计模型通常应用于特定的特征。在特征提取的过程中产生的噪声可能会导致糟糕的表现。

在本文中,我们提出了一个新的模型,称为分段卷积神经网络(PCNNs)的多实例学习以解决这两个问题。为了解决第一个问题,远程监督关系抽取被视为一个多实例问题,其中实体标签的不确定性被考虑了进来。为了解决后一个问题,我们避免了特征工程,而采用了有着最大池化来自动学习关系特征的卷积结构。实验表明,我们的方法是有效的,并优于几种有竞争力的基线方法。

1. 介绍

在关系抽取中,当建立机器学习系统时要面对的一个问题是训练样本的生成。应对这个困难的一个常见技术是远程监督(Mintz et al., 2009),它假设如果两个实体存在一种在已知的知识库里的关系,所有提到这两个实体的句子都在一定程度上表达了这种关系。图1展示了通过远程监督自动标注数据的例子。在这里例子中,Apple和Steve Jobs是Freebase中两个相关的实体。所有含有这两个实体的句子都会被选中,作为训练实例。远程监督策略是一种有效的自动标记训练数据的方法。但是,当用于关系抽取时,它有两个最主要的缺点。

图1 通过远程监督产生的训练实例。上句:正确标注;下句:标注错误。

图1 通过远程监督产生的训练实例。上句:正确标注;下句:标注错误。

首先,远程监督的假设太过于强大会造成错误标签问题。一个提到两个实体的句子不一定就能表达它们在知识库中的关系。这两个实体有可能只是简单的共享一个的相同的主题。例如,在图1中的上句表达了“company/founders”关系。但是下句并没有表达这种关系,但是它仍然会被选为训练实例。这会阻碍在这样的噪声数据上训练的模型的性能表现。

第二,先前的模型(Mintz et al., 2009;Riedel et al., 2010; Hoffmann et al., 2011) 当通过远程监督获得标记书记时,通常将经典的将监督模型用于精心设计的特征。这些特征通常来自于现有的自然语言处理(NLP)工具。由于错误不可避免的存在于NLP工具,传统特征的使用会导致错误的传播或累积。远程监督关系抽取通常从网络中提取语料,包括许多非正式文本。图2展示了Riedel等人(2010)开打的一个远程监督基准数据的句子长度的分布。大约一半的句子超过了40个单词。McDonald和Nivre(2007)研究表明随着句子长度的增加,句法分析的准确性显著降低。因此,在使用传统特征时,不仅存在误差传播和累积的问题,还会变得更加严重。
在这里插入图片描述

图2:Riedel数据集的句子长度分布。

在本文中,我们提出了一个新的模型,称为分段卷积神经网络(PCNNs),能够利用多实例学习来解决上述问题。为了解决第一个问题,与之前的一些研究(Riedel et al., 2010; Hoffmann et al., 2011; Surdeanu et al., 2012)类似,远程监督关系抽取被视为多实例问题。在多实例问题中,训练集包含许多个袋,每个袋又包含多个实例。袋的标签是已知的,然而袋里的实例的标签是未知的。我们设计了一个袋级的目标函数。在学习过程中,可以考虑实例标签的不确定性;这将缓解错误标签问题。

为了解决第二个问题,收到Zeng等人(2014)的启发,我们采用卷积架构自动学习相关特征,无需进行复杂的NLP预处理。我们提议是Zeng等人(2014)的扩展,其中一种单个最大池化操作被用于确定最显著的特征。尽管这种操作已经被证明对文本特征表示(Collobert et al., 2011; Kim, 2014)是有效的,它的隐藏层尺寸减小的太快以至于不能捕获两个实体之间的结构信息(Graham, 2014)。例如,为了识别图1中的Steve Jobs和Apple之间的关系,我们需要指定指定实体并提取他们之间的结构特征。有一些方法采用了手工制作特征,试图对这样的结构信息进行建模。这样的方法通常要考虑内部和外部的上下文。根据两个给定的实体,一个句子本质上被分为了三个部分。内部语境包括两个实体内部的特征,外部语境包括两个实体周围的特征(Zhang et al., 2006)。显然,单个最大池化不足以捕获这种结构信息。为了捕获结构和其他潜在信息,我们根据两个给定实体的位置,将卷积分为三段,并且设计了一个分段的最大池化层,而不是单个的最大池化层。分段最大池化过程返回每段的最大值,而不是整个句子句子的单个的最大值。因此,他有望表现出比传统方法更优越的性能。

本文的贡献可以总结如下:

  • 我们探索了在没有手工设计特征的情况下,进行远程监督关系抽取的可行性。提出了PCNNs用于自动学习特征,而无需复杂的NLP预处理。
  • 为了解决错误标签问题,我们开发了创新的解决方案,将多实例学习引入到PCNNs中,用于远程监督抽取。
  • 在提出的网络结构中,我们设计了一种分段的最大池化层,目的是捕获两个实体之间的结构信息。

2. 相关工作

关系抽取是自然语言处理中最重要的课题之一。许多用于关系抽取的方法被提出,譬如bootstrapping、无监督关系发现就监督分类等。监督方法是关系抽取最常用,也是产量相对较高的方法(Bunescu and Mooney, 2006; Zelenko et al., 2003; Zhou et al., 2005)。在监督方法中,关系抽取被认为是一个多分类问题,并可能收到缺乏标记数据的影响。为了解决这个问题,Mintz等人(2009)采用了Freebase进行远程监督。正如第1节所述,用于训练数据生成的算法有时会面临错误标签问题。为了解决这个问题,(Riedel et al., 2010; Hoffmann et al., 2011; Surdeanu et al., 2012)提出了用于多实例学习的宽松远程监督假设。“多实例学习”这个词是(Dietterich et al., 1997)在研究药物活性问题时创造的。在多实例学习中,实例标签的不确定性得到了考虑。多实例学习的重点是区分不同的包。

这些方法均被证明对于关系提取是有效的。但是,他们的表现很大程度上取决于设计特征的质量。大多数现有的研究都关注于提取特征以识别两个实体的关系。以前的方法一般被分类为两种类型:基于特征的方法和基于核的方法。在基于特征的方法中,一系列策略被提出,将分类线索(例如,序列、解析树)转换为特征向量(Kambhatla, 2004; Suchanek et al., 2006)。基于特征的方法会受到在将结构表示转化为特征向量时需要选择合适特征的困扰。基于核的方法为利用输入分类线索的丰富表示提供了一种自然的选择,譬如语法解析树。基于核的方法允许使用大量特征,而不用显式的抽取它们。许多种核已经被提出,如卷积树核(Qian et al., 2008),子序列核(Bunescu and Mooney, 2006)和依赖树核(Bunescu and Mooney, 2005)。

然而,正如第1节所提到的,使用现有的NLP工具很难设计高质量的特征。随着最近对神经网络兴趣的复苏,许多研究人员已经研究了使用神经网络自动学习特征的可能性(Socher et al., 2012; Zeng et al., 2014)。受Zeng等人的启发,我们提出使用有着多实例学习的PCNNs来自动学习特征,用于远程监督关系抽取。Dietterich等人(1997)认为用于神经网络的多实例修改是一个特别有趣的话题。Zhang和Zhou(2006)成功地将多实例学习融合进传统的反向传播(BP)和径向基函数(RBF)网络中,并通过最小化平方和误差函数来优化这些网络。与他们的方法相反,我们基于交叉熵原理定义了目标函数。

3. 本文方法

远程监督关系抽取被表述为多实例问题。在本节中,我们提出了创新的解决方法,将多实例学习融入到卷积神经网络用以完成这样任务。提出了PCNNs,用于自动学习特征,而不需要复杂的NLP预处理。图3显示了我们用于远程监督关系抽取的神经网络架构。它说明了处理一个包实例的过程。该过程包含主要的四个部分:向量表示、卷积、分段最大池化和Softmax输出。我们将在下方描述这些部分的细节。
在这里插入图片描述

图3 用于远程监督关系抽取的PCNNs的结构(颜色更好看),说明了处理一个包实例的过程,并预测Kojo Annan和Kofi Annan之间的关系

3.1 向量表示

我们网络的输入是原始的单词。当使用神经网络时,我们通常将单词转化为低维向量。在我们的方法中,每一个单词都会通过查找预训练的单词嵌入来被转化为一个向量。更多的是,我们使用了位置特征(PFs)来指定实体对,并通过查找位置嵌入将位置特征转化为向量。

3.1.1 词嵌入

单词嵌入式单词的分布式表示,它将文本中的每个单词映射到一个‘k’维的实值向量。最近的研究表明,它们能够很好地捕捉单词的语义和句法信息,再几个单词相似度任务中创造了表现记录(Mikolov et al., 2013; Pennington et al., 2014)。使用预训练的词嵌入已经成为许多其他NLP任务的常见算法(Parikh et al., 2014; Huang et al., 2014)。

训练神经网络的一种常见方法式随机初始化所有参数,然后使用优化算法进行优化。最近的研究(Erhan et al., 2010)表明,当使用词嵌入初始化神经网络时,它们可以收敛到更好的局部最小值。词嵌入通常以完全无监督的方式学习,利用无标记文本中的词的共同出现的结构。研究人员提出了几种训练词嵌入的方法(Bengio et al., 2003; Collobert et al., 2011; Mikolov et al., 2013).。在本文中,我们采用Skip-gram模型 (Mikolov et al., 2013)来训练词嵌入。

3.1.2 位置嵌入

在关系抽取,我们专注于将标签分配给实体对。与Zeng等人(2014)类似,我们使用PFs指定实体对。一个PF定义为当前单词到e1和e2的相对距离的结合。例如,在下列例子中,son到e1(Kojo Annan)和e2 (Kofi Annan) 的相对距离分别对3和-2。

在这里插入图片描述)
两个位置嵌入矩阵(PF1和PF2)被随机初始化,然后通过查找位置嵌入矩阵将相对距离转化为实值向量。在图3所示示例中,假设单词嵌入的大小为dw=4,位置嵌入的大小为dp=1。在单词嵌入和位置嵌入的结合中,向量表示部分将一个实例转化为一个S∈Rsd,其中s是句子长度,d=dw+dp2。随后矩阵S会被输入到卷积部分。

3.2 卷积

在关系抽取中,标记为包含目标实体输入句子只对应于关系类型;他不能预测每个单词的标签。因此,可能需要利用所有局部特征并全局地执行这个预测。当使用神经网络时,卷积方法是合并所有特征的一种自然方法(Collobert et al., 2011)。

卷积是权重向量w和输入序列q的向量之间的运算。权重矩阵w被视为卷积的过滤器。在图3所示的例子中,我们假设过滤器长度是w(w=3);因此w∈Rm(m=w*d)。我们认为S是一个序列 {q1, q2, · · · , qs},其中qi∈Rd。一般来说,qi;j是qi到qj的串联。卷积运算包括将w与序列q中的每个w-gram做点积,得到另一个序列c ∈Rs+w-1:
在这里插入图片描述)
其中,索引j的取值范围为1~s+w-1。超过范围的输入值qi(i,<0或 i>s)被设为0。

捕捉不同特征的能力通常需要在卷积中使用多个过滤器(或特征映射)的使用。假设我们使用n个过滤器(W={w1,w2……wn}),卷积运算可以表示为:
在这里插入图片描述
卷积结果为矩阵C={c1,c2……cn}∈Rn*(s+w-1)。图3显示了卷积过程中使用3中不同滤波器的示例。

3.3 分段最大池化

卷积输出矩阵C∈Rn*(s+w-1)的大小取决于输入网络的句子中单词s的数量。为了应用于后续的层,卷积层提取的特征必须结合起来,使他们独立于句子长度。在传统的卷积神经网络(CNNs)中,最大池化操作通常用于这个目的(Collobert et al., 2011; Zeng et al., 2014)。这种类型的池化模式自然地解决可变句子长度的问题。这个思想是为了在每个特征中捕捉最重要的特征(具有最高的值)。

然而,尽管单最大池化被广泛应用,但这种方法应用于关系提取还不足够。如第一节所述,单最大池化过快的缩减了隐藏层的大小,且过于粗糙,无法捕获用于关系提取的细粒度特征。此外,单个最大池化不足以捕获两个实体之间的结构信息。在关系抽取中,可以选择的两个实体将输入句子氛围三个段。因此,我们提出了一个分段的最大池化过程,他返回每个分段的最大值,而不是单个最大值。如图3所示,每个卷积滤波器ci的输出被Kojo Annan和Kofi Annan分为三个片段{ci1, ci2, ci3}。分段最大池化过程可以表示为:
在这里插入图片描述
对于每个卷积滤波器的输出,我们可以得到一个三位向量pi={pi1,pi2,pi3}。然后我们将所有向量p1:n连接起来,并应用于一个非线性函数,例如双曲正切。最后,分段最大池化过程输出一个向量:
在这里插入图片描述
其中,g ∈R3。g的大小是固定的,不再与句子的长度有关。

3.4 softmax输出

为了计算每个关系的置信度,特征向量g被送入softmax分类器。
在这里插入图片描述
W1∈Rn1*3n。是一个变换矩阵,o∈Rn1是网络的最终输出,其中n1等于关系抽取系统可能的关系类型的数量。

我们在倒数第二层采用dropout(Hinton et al., 2012)进行正则化。Dropout通过在正向计算中随即删除隐藏单元的一部分来防止隐藏单元的协同适配。我们首先对g应用“遮掩”操作(g·r),其中r是概率p为1的伯努利随机变量的向量。公式(5)变成了:
在这里插入图片描述
然后可以将每个输出解释为对应关系的置信度得分。这个分数可以通过应用softmax操作解释为一个条件概率(见3.5节)。在测试过程中,将学习到的权重向量按p进行缩放,使得W1=pW1,并使用(没有dropout)对不可见的实例进行评分。

3.5 多实例学习

为了缓解错误标签问题,我们对PCNNs使用了多实例学习。基于PCNNs的关系抽取可以表述为五元组θ=(E,PF1,PF2,W,W1)2。网络的输入是一个袋。假设有T个袋{M1,M2……MT},第i个袋包含qi个实例Mi={m1i,m2i……mQii}。多实例学习的目的是预测看不见的袋子的标签。在本文中,所有在袋里的实例都被认为是独立的。给定一个输入实例mji,带有输出向量o的参数θ,其中第r分量对应与关系r相关的分数。为了得到条件概率p(r|m,θ),我们对所有关系类型都应用softmax运算。

在这里插入图片描述
多实例学习的目的是在于区分袋,而非实体。为此我们必须在袋上定义目标函数。给定所有(T个)训练袋(Mi,yi),我们可以在袋的级别上使用交叉熵定义目标函数如下:
在这里插入图片描述
其中j约束为:
在这里插入图片描述
利用这个定义的目标函数,我们通过Adadelta (Zeiler, 2012)更新规则,通过随机梯度下降来最大化J(θ)。整个训练过程如算法1所述。

从上面的介绍,我们知道传统的反向传播根据所有的训练实例修改网络,而多实例学习的反向传播算法基于包对网络进行修改。因此,我们的方法抓住了远程监督关系抽取的本质,其中一些训练实例将不可避免的被标记错误。当使用经过训练的PCNNs进行预测时,当且仅当网络在袋中至少一个实例的输出被赋予了正标签时,一个袋被标记为正。

5. 总结

在本文中,我们利用具有多实例学习的分段卷积神经网络(PCNNs)进行远程监督关系提取。

该方法无需复杂的自然语言处理预处理,即可自动学习特征。我们还成功地在该网络中设计了一个分段最大池化层来捕获结构信息,并结合多实例学习来解决错误标签问题。实验结果表明,该方法比同类方法有明显的改进。

————————————————————————
研究生新生读论文中,将持续更新知识图谱、自然语言处理相关论文~

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值