ARNOR阅读笔记

ARNOR是《Attention Regularization based Noise Reduction for Distant Supervision Relation Classification》论文提出的一种解决远程监督关系抽取中噪声问题的模型。该模型通过注意力正则化关注对句子关系判断有突出贡献的词,同时结合基于注意力权重的句子选择策略,降低噪声影响。ARNOR包括注意力正则和选择迭代两部分,其中注意力正则优化了句子内部pattern信息的关注,而选择迭代则选择模型能够准确解释关系标签的实例进行迭代更新。
摘要由CSDN通过智能技术生成

论文名称《Attention Regularization based Noise Reduction for Distant Supervision Relation Classification》
基于注意力正则化的ARNOR框架

弱监督关系抽取

弱监督学习是有监督学习和无监督学习的折中,训练数据只有部分标注有噪声。
弱监督关系抽取主要有两种框架:

  • 使用半监督学习和主动学习等技术以尽可能少的代价提升抽取效果,也就是尽可能减少对标注数据的需求
  • 使用远程监督的思想,利用现有知识库的关系三元组自动标注实体所在的所有文本作为训练数据。

基于多示例学习的方法

把含有特定实体对的句子集合看成一个多示例包,包中只要有一个句子正确表达出了指定关系,则当前这个包就是一个正包。在测试时直接对包进行预测,取包的预测结合作为两个实体之间的关系。
在这里插入图片描述
把训练数据集中每一个数据看作一个bag,每个bag由多个instance组成,每个bag有一个可见的标签而bag的instance没有可见的标签。如果包中至少包含一个标签为正的示例,则包的标签为正;如果包中所有示例的标签都是负的,则包的标签为负。多示例学习的过程就是通过模型对包以及其包含的多个示例进行分析预测得出包的标签。也就是只对instance进行建模,不对其进行预测。

关系抽取的目标是获得两个实体之间的联系,而不是狭义地对句子分类。

将远程监督关系抽取看作是一个多示例问题,这样就只需要要求在回标的所有句子中,至少有一个句子能表示两个实体间的关系。也就是将一个实体对对应的所有句子看作一个bag,其中的每一个句子就是一个instance,从而解决回标噪声的问题。

多示例学习指导下的远程监督关系抽取核心假设:至少一句表达真实关系,多示例学习降噪的流程是:
多示例包>>输入向量化>>得到句向量>>得到包向量>>训练分类器>>得到关系

训练过程如下
在这里插入图片描述
这里的 y i y_i yi是标注的关系,m是instance,代表第i个bag中的第j个instance。每次输入一个包及其对应的关系标签,再从包里挑选一个instance输入进网络,这个instance就是根据上面蓝框里面的公式挑选得出的,即选出最有可能表达关系 y i y_i yi的那个instance。然后根据选出的instance改变网络参数。
多示例学习的最终目的就是预测未知包的标签,核心假设就是包里面至少有一个正例。定义在包上的最终目标函数
J ( θ ) = ∑ i = 1 T log ⁡ p ( y i ∣ m i j ; θ ) J(\theta)=\sum_{i=1}^{T} \log p\left(y_{i} | m_{i}^{j} ; \theta\right) J(θ)=i=1Tlogp(yimij;θ)
这是一个对数似然函数,就是令所有T个包中各自选出的那个最可能对的instance是正确的可能性最大化。

推荐文献:
曾道建,面向非结构化文本的关系抽取关键技术研究,中国科学院大学,2015
林衍凯,大规模结构化知识的表示学习、自动获取与计算应用,清华大学,2019
Jun Feng. Reinforcement Learning for Relation Classification from Noisy Data. AAAI2018

基于Bootstrapping的方法

当前工业界多采用bootstrapping的框架,该方法首先给定初始种子模板,然后通过多次迭代选取置信度高的抽取结果,这也是开放式关系抽取的一种常见做法。
在这里插入图片描述
Bootstrapping算法即自扩展算法,是一种半监督的学习方法,也是一种机器学习中的一般性框架。其核心思想就是,首先通过人工干预得到初始种子集合,然后增量迭代进行自动训练,直到模型收敛或者达到迭代上限。在每一轮的迭代中,都将产生一些新的标注数据,通过对这些标注数据进行打分和选择,就可以得到新的种子数据,用这些新的种子数据重新训练模型,新的模型又可以产生新的数据,如此循环往复,直到模型训练结束。显然,这类方法能够极大减少学习过程中人的工作量,所以一直以来,在工业界都有着及其广泛的应用。

而将Bootstrapping算法用到关系抽取领域的核心思想是,利用互联网上的信息具有数据规模庞大且重复性高的特点,通过不断自动迭代的方式来减少对标记数据的需求。在这种思想的指导下,一般假设拥有正确关系类别(Relation)的实例(Instance)中含有好的关系模式(Relation Pattern),反过来讲,在关系抽取过程中,根据好的关系模式(类似正则)所发现的置信度较高的实例(也就是句子)也就是好的关系实例。所以,在少量初始种子集的基础上,通过不断迭代产生新的关系模式来扩充种子集,就可以实现低成本地标记大量文本数据的目的。
(这里的关系模式就类似于学习到的模型)

常见的关系模式有

  • 两个实体之间的文本
  • 两个实体的最短依存路径(SDP)

基于Bootstrapping的关系抽取仅仅需要少量的种子实例就可以迭代分类出大量未标注实例,可以极大地减少人工干预。具体来说,这种方法需要进行反复迭代产生新的关系模式。在每一次的迭代中,我们在模式相似性度量函数的辅助下将新的、可靠的模式不断加入到种子集中,即更新种子集。然后用新的种子集对剩余的未标注模式再次进行预测分类,选择出可靠的关系模式继续加入到种子集中,该过程不断循环,直到所有未标注模式没有剩余或满足终止条件。流程图描述如下

在这里插入图片描述

看到上面的这种迭代循环,很自然地就能想到最容易发生的问题:如果一开始更新种子集的时候误差就存在,那后面随着迭代的加深准确率是否就越来越走远了?类似这样的问题就叫做语义漂移问题。就是说随着迭代的进行,新抽取的语义关系已经和原始种子数据集中表述的语义关系出现了偏差,这种现象被称为语义漂移现象。出现语义漂移的主要原因是扩展的文本实例不能正确的表示关系语义。这些错误的文本实例会提取出错误的模式表示方法,从而导致抽取效果的下降。因此,很多系统迭代过程中会加入一些抑制语义漂移的措施。例如,仅当置信度得分等于或高于特定值时,才将该种子实例添加到种子集。

论文提出的模型:ARNOR

要解决的问题:远程监督中的噪声问题
现有方法的问题:

  • 句子级别的注意力机制不能够关注句子内部的pattern信息
  • 单词级别的注意力机制往往会重点关注实体,显然,这种方法并没有准确地理解句子的语义。

对语义的准确理解能够帮助我们解决远程监督中的噪声问题。

ARNOR模型包括两个部分

  • 注意力正则:使模型重点关注对句子关系判断有突出贡献的词,这些词也就是关系模式
  • 选择和迭代:选择那些模型能够对关系标签做出准确解释的实例作为种子数据,进行迭代

基于注意力机制的编码器

编码器结构图如下所示
在这里插入图片描述
输入层&编码层:输入一共包括三个部分,包括词向量、位置向量和实体类型向量,将这三者拼接起来之后输入到一个BiLSTM层中

注意力层:使用注意力机制来计算每个单词的重要程度,按照注意力权重加权得到句子向量,这也就是一个标准的BiLSTM+ATT的模型结构。

整个模型结构图用数学表达式可总结为
M

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值