【论文笔记】2019-NAACL Exploiting Noisy Data in Distant Supervision Relation Classification

目录

0.摘要

1.先前研究

2.方法

3.实验

4.个人思考


0.摘要

  • Motivation:远程监督已经在关系抽取任务取得了很大的进步,然而它依然受噪音标签的影响。
  • Problem:之前的研究没有充分利用噪音数据,而这些噪音数据本身也有有益于分类的特征。
  • Approach:不同于这一点,这篇论文提出了RCEND,一个可以充分利用到噪音数据来改善关系分类的框架。首先,设计了带有强化学习的实例判别器,以将噪音数据分为正确标记的数据和错误标记的数据。 其次,以半监督学习的方式学习一种鲁棒的关系分类器,将正确和错误标记的数据分别视为已标记和未标记的数据。
  • Results:实验结果证明,该方法比当前的state-of-the-art模型表现更好。

1.先前研究

许多基于监督学习的方法都对关系分类起到很大的促进作用。众所周知,使用监督学习需要大规模的高质量标注数据。为了解决数据稀缺性的问题,远程监督被提出可以标注大规模训练数据,不可避免地带来了一些噪音标注问题。

为了更好地应对正样本的噪音样例,许多早期的方法采用多样例学习框架,包括多样例单标签学习和多样例多标签学习。最近深度学习也早已被引入,提出了端到端的卷积神经网络。在一对实体的句子bag中,选择最可靠的句子,或是提出注意方案来降低不可靠句子的重要性,或是利用层级信息来加强注意力机制的作用。但是,这些方法均不能很好地应对在一个bag中的全部句子均被错误标注的情况。

有学者使用强化学习或者对抗训练来直接移除错误标注的句子。然而,他们忽视了那些句子中含有的有用信息,这些句子应该被正确的标签标注。换句话说,他们选择直接去掉噪音,而不是用正确的方式利用这些噪音数据。

更进一步地,一些研究提出利用噪音的方法,比如使用伪相关反馈来扩展原始的知识库来纠正假负例,或使用动态soft-label而不是由远程监督产生的不可改变的hard-label样本,或设计了一个过渡矩阵,该矩阵表征了潜在的噪声模式以纠正噪声标签。 他们他们利用噪音数据并在某种程度上解决了假负例问题,但是它们有着错误传播的缺点,因为模型无法纠正其自身的错误。

如Figure 1中诠释的那样,之前的方法集中在发现FP(假正例),将其在最后环节抑制或者移除,来取得一个更好的决策边界(绿色的虚线),而没有考虑如何利用FP样本。而且,还有很也能提供目标关系的证据多FN(假负例),和正例表达着相似的语义信息。这些样例也能给目标关系提供证据。这些不正确的标签会削弱可用特征的辨别性,这些样本一直贴着不正确的标签,也会让模型的分类性能下降。然而,当试图纠正标签时,实际上会拥有一个最理想的决策边界(如红色的实线)。

2.方法

为了解决上述的问题,该论文提出了一个统一的框架,使用样例辨别器通过强化学习来识别假正例和假负例,并以半监督学习方式学习一个鲁棒的关系分类器,其将标记错误的数据当做未标记的数据,进行学习利用。

2.1整体框架

模型框架
模型整体框架

所有的样例被分成许多的实体对bag,每个在bag中的句子都包含头实体和尾实体,还有一个嘈杂的标签。NA是一个特殊的关系,不代表任何在知识库中的关系。将初始数据集,根据是否为NA类别,划分为Dpos和Dna。

实例辨别器,通过强化学习,从嘈杂的远程监督数据集中,试探性地识别FP和FN实例。 辨别器发现的正确标记的实例将拆分为标记的数据,而错误标记的实例将拆分为未标记的数据。将整个嘈杂的数据集划分后,利用上述方法训练了具有半监督学习能力的鲁棒分类器(SemVAE),利用标记数据和未标记数据进行学习。  同时,关系分类器为实例鉴别器提供奖励以更新其策略功能的参数。

2.2 样例辨别器

将识别不正确标注的样本当做一个强化学习问题。样例辨别器作为一个agent,和包含嘈杂数据集和关系分类器的环境互动。这个agent用一个policy网络进行参数化,给每个state的action进行一个概率分布估计,同时接受来自关系分类器的reward更新参数。NA代表两个实体间不包含关系,或者不关心这个关系。NA是非常的模糊,因为样例之间没有统一的模式。因此,不能决定哪个句子属于NA,仅仅因为它不表达任何其他的正例关系。基于这样的考虑,采用了两个agent(PosAgent和NegAgent),分别识别FP和FN样本。

State 包括当前句子的语义和句法信息,以及通过远程监督标注的关系标签。使用PCNN将每个句子转化成实值向量,建立一个关系表示的矩阵来代表每个关系类别。当判断当前句子是否被正确标注时,应该根据句子和关系之间的语义相似,在早期的states时,只考虑了当前的句子。对PosAgent,state Sp 是当前句子向量和对应关系的拼接。对NegAgent,state Sn是根据当前句子向量的关系分数向量。

Action 判断当前句子是否被错误标注,0代表被错误标注,1代表被正确标注。

Reward 当agent做了正确的actions时,标注数据的平均可能性会比未标注数据的可能性大。因此将两者可能性的差异作为reward来评估policy的表现,公式如图所示。L代表标注数据的子集,U代表未标注数据的子集。

Policy-based Agent

agent的目标在于最大化所有actions取样自概率分布的平均reward,使用policy gradient策略来计算梯度,并更新agent参数θ。

先让分类器在整个数据集上通过监督学习进行预训练,直到大致收敛。然后再通过接受从与训练过的分类器得到的reward,预训练policy网络,此时分类器的参数被冻结着。这个预训练策略非常有效。

样例辨别器的强化学习算法过程

2.2 关系分类器

2.2.1 PCNN

每个词语表示由词向量和位置向量拼接组成,之后卷积层使用窗口尺寸为 l 的内核对输入序列j能够计算,输出隐藏向量 h 。然后是采用piecewise max-pooling机制,将隐藏向量根据头实体和尾实体的位置分为三部分,对每个部分依次进行最大池化,通过拼接池化后的三部分,得到最终的向量x。最终通过x预测y。

2.2.2 半监督VAE

SemiVAE是基于变分推断的半监督学习方法。这个推断模型由三部分组成:编码器编码数据x和标签y成潜在变量z,解码器估计给定z和y生成x的概率,分类器预测x的对应标签y。建模encoder和decoder都是用的MLP(多层感知机)。

对于标注数据的情况,evidence下界为:第一项是条件对数似然函数,最后一项是KL散度,计算两者之间的互信息

 对于未标注数据的情况,evidence下界为:

 由于分类器不能直接从标注数据中获得,因此分类损失如下:

 为了最大化标注数据he为标注数据的evidenct下界,和最小化分类损失,目标函数如下:

 

关系分类器的半监督学习算法过程

3.实验

3.1 数据集和评价指标

  • 数据集:NYT-10
  • 评价方式:held-out评估,将从测试集中提取到的关系标签与其在Freebase中的作比较。
  • 评价指标:precision/recall曲线,precision@N

3.2 参数设置

使用Adam优化器来优化样例辨别器和关系分类器,设置的学习率分别为0.0001和0.001.还是用了dropout来避免过拟合。更多细节在下图中。

参数设置

3.3 Baselines

  • 手工特征:Mintz ,MultiR,MIML
  • 基于at-least-one假设、selective attention、层级注意力:PCNN+ONE,PCNN+ATT,PCNN+HTT
  • 使用soft-label方法:PCNN+ONE+SL,PCNN+ATT+SL

3.4 实验结果

  • 人工特征方法普遍表现不好,可能是错误传播的问题。
  • PCNN+ONE、PCNN+ATT提升了性能。
  • 使用soft labels的PCNN+ONE、PCNN+ATT,说明纠正嘈杂标签是有帮助的。
  • PCNN+HATT进一步提升了信息,说明对注意力机制的改善是起效的。
  • RCEND在整个召回率取值范围内,均拥有最高的精确率。

3.5 实验分析

  • 未标注数据的作用:为了进一步验证未标注数据的作用,开展了利用和不利用未标注数据的实验。结果如Figure4所示,以半表明去掉噪音的方法比用soft attention权重的方法效果好,利用噪音数据的效果又比直接移除噪音数据要好。以半监督学习的方式,纠正错误标注的样本的错误标签,可以提升泛化性能。
  • FP和FN样本的作用:像Figure 5中呈现的那样,RCEND(P)只通过PosAgent识别出假正例,RCEND(N)只通过NegAgent识别出假负例。RCEND(P)和RCEND(N)表现相似,同时利用假正例和假负例带来更大的性能提升,说明两者均很重要,都促进了关系分类器的能力。Table 4也表明了利用假负例比利用假正例表现稍微好一些,因为假负例可能被预测为正例,然后会增加目标关系的样本数目,从而学习一个更准确的决策范围。

3.6 案例分析

文中列出了一张表格,取样了一些被错误标注的样例,它们在训练时会被视为未标注的数据。这些样例最终通过关系分类器被正确预测了,表明了该模型确实能够捕获到噪音数据的有效信息,并利用它们改善自身的分类能力。

4.个人思考

1)本文的实验效果提升显著,提出的方法不同于之前的过滤噪音,而是先筛选出噪音数据,再利用噪音数据,可以充分地利用有限的数据;

2)根据强化学习的特性,是不是预训练阶段,训练初始阶段的reward是往正确的方向反馈较为重要?能否采用更好的强化学习策略?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值