Progressive Self-Supervised Attention Learning forAspect-Level Sentiment Analysis论文阅读

本文针对神经网络在情感分析中过度关注高频词汇而忽略低频词汇的问题,提出了渐进自监督注意力学习方法。通过擦除注意力权重最高的上下文词,模型能逐渐发现并平衡不同模式的学习。实验证明,该方法在两个主流神经模型上提高了方面级情感分析的性能,特别是在处理低频情感词上效果显著。
摘要由CSDN通过智能技术生成

Progressive Self-Supervised Attention Learning forAspect-Level Sentiment Analysis翻译及理解

1.本文针对神经网络在学习过程中存在的强模式过学习和弱模式欠学习的问题,提出了渐进自监督注意力机制算法,有效缓解了上述问题。主要基于擦除的思想,使得模型能够渐进的挖掘文本中需要关注的信息,并平衡强模式和弱模式的学习程度。在基于方面层次的情感分析三个公开数据集和两个经典的基础模型上测试表明,所提出的方法取得了不错的性能表现。
2.在方面层次的情感分类任务中,经典方法为使用注意力机制来捕获上下文文本中与给定方面最为相关的信息。然而,注意力机制容易过多的关注数据中少部分有强烈情感极性的高频词汇,而忽略那些频率较低的词。

摘要

在方面级别的情感分类(ASC)中,普遍的做法是为优势神经模型配备注意机制,以便获得给定方面每个上下文词的重要性。 但是,这种机制倾向于过分关注少数带有情感极性的频繁单词,而忽略了很少出现的单词。 本文提出了一种针对神经ASC模型的渐进式自我监督注意学习方法,该方法会自动从训练语料库中挖掘有用的注意监督信息,以细化注意机制。特别是,我们对所有训练实例进行迭代的情感预测将具有最大注意力权重的上下文单词提取为对每个实例的正确/不正确预测具有积极/误导性影响的上下文单词,然后将该单词本身屏蔽起来以进行后续迭代。 最后,用正则化项削弱了常规训练目标,这使ASC模型可以继续将注意力集中在提取的活动上下文词上,同时减少那些误导对象的权重。对多个数据集的实验结果表明,我们提出的方法产生了更好的注意力机制,从而导致了对两种状态的重大改进 最先进的神经ASC模型。 源代码和经过训练的模型可从https://github.com/DeepLearnXMU/PSSAttention获得。

1.介绍

基于方面的情感分析在该领域中是一项单独的任务,旨在推断出输内容在某一方面的情感极性。

目前该工作的处理模型:占主导地位的ASC模型已发展为基于神经网络(NN)的模型,它可以自动的学习输入内容的情感关系,表现良好。attention机制在该任务中也有着重要的作用。

现存的基于attention的ASC模型有一个重大的缺陷:这种机制倾向于过分关注少数带有情感极性的频繁单词,而忽略了很少出现的单词。

两个模式:“apparent patterns” and “inap-parent patterns”
其中,“明显模式”被解释为带有强烈情绪极性的高频词汇,而“不明显模式”则被解释为训练数据中的低频词汇,神经网络通常会对显示模式的词语过度学习,针对不明显的词语忽视掉。
一个反面例子
在这里插入图片描述
在前三个训练句中,由于语境词“小”经常与消极情绪一起出现,注意机制对其给予了更多的关注,并将包含“小”情绪的句子与消极情绪直接联系起来。这就不可避免地导致了另一个信息上下文单词“crowded”被部分忽略,尽管它也是消极意义上的词语。因此,情绪的神经ASC模型错误地预测最后两个测试句子:在第一个测试中句子,神经ASC模型未能捕获的负面情绪与“拥挤”;同时,在第二个测试句子,注意机制直接关注“小”尽管这样与方面词没有关系。(本次测试样例中的aspect是place??

在本文中,我们提出了一种针对神经ASC模型的新型渐进式自我监督注意力学习方法。该方法可以自动的递增的从训练语料中获得注意力监督信息,它可以用于指导ASC模型中attention机制的训练。

想法依据:注意权重最大的上下文词对输入句子的情感预测影响最大。因此,在模型训练过程中应考虑正确预测的训练实例的上下文词。 相反,预测错误的训练数据应该被忽视。为此,我们迭代地对所有训练实例进行情绪预测。

大致过程:特别的是,在每次迭代时,我们从每一次训练实例中提取出最大的attention权重去规范attention监督信息,这可以用于规范attention机制的训练:在正确预测的情况下,我们将保留此词以供考虑; 否则,预计该词的注意力下降。然后,我们屏蔽了到目前为止每个训练实例提取的所有上下文词,然后重新进行上述过程以发现更多注意机制的监督信息。 最后,我们用调节器增强标准训练目标,该调节器强制这些挖掘的上下文词的注意力分布与其预期分布相一致。

本文突出贡献
(1)通过深入分析,指出了目前一般的注意力机制存在的不足。
(2)提出了一种新的神经ASC模型注意监控信息自动提取的增量方法。
(3)我们将我们的方法应用于两个主要的神经ASC模型:记忆网络(MN) 和转换网络(TNet)。几个基准数据集的实验结果证明了该方法的有效性。

2.背景

本节简单给出MN和TNet两个模型的介绍,这两个模型都实现了令人满意的效果。
几个参数介绍:
x= (x1,x2,…,xN) :输入句子文本
t= (t1,t2,…,tT) :给出的目标aspect
y,yp∈{Positive, Negative, Neutral}用于表示真实的标签和预测的标签(即情感极性)
在这里插入图片描述在这里插入图片描述

MN模型:先介绍一个方面嵌入矩阵,将每个target aspect的单词tj转换为词向量表示形式,然后定义最终t的词向量表示形式为v(t),作为该词的平均aspect词嵌入向量。 同时,另一个嵌入矩阵用于将每个上下文单词xi投影到连续存储的内存中,用mi表示。然后,使用内部attention机制生成句子x的与aspect相关的情感语义表示
在这里插入图片描述
其中M是一个attention矩阵,并且hi是从上下文词中引出的xi的最终语义表示,被从上下文词嵌入矩阵导出。 最后,我们使用完全连接的输出层基于o和v(t)进行分类。

TNet:三个组件
(1)底层是Bi-LSTM,它将输入x转换为上下文化的单词表示形式此处有疑问
在这里插入图片描述
(即Bi-LSTM的隐藏状态)。

(2)中间部分作为整个模型的核心,包含L层上下文保持转换(Context-Preserving Transformation:CPT),其中单词表示形式更新为在这里插入图片描述。CPT层的关键操作是特定于目标的转换。它包含另一个Bi-LSTM,用于通过注意机制生成v(t),然后将v(t)合并到单词表示中。此外,CPT层还配备了上下文保存机制(Context-Preserving Mechanism: CPM)来保存上下文信息和学习更抽象的单词级特性。最后,我们得到了单词级语义表示
在这里插入图片描述
(3)最上层是CNN层,用于生成与方面相关的句子表示o进行情感分类。

在这项工作中,我们考虑了原始TNet的另一种替代方案,该替代方案用注意力机制替换了最顶层的CNN,以产生与方面相关的句子表示形式为:o = Atten(h(x),v(t))。 在第4节中,我们将研究原始的TNet及其配备注意机制的变体的性能,该机制由TNet-ATT

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值