基于选择性注意的图卷积网络用于方面级情感分类

Selective Attention Based Graph Convolutional Networks for Aspect-Level Sentiment Classification

基于选择性注意的图卷积网络用于方面级情感分类

Abstract

方面级情感分析的目的是识别句子中某一特定aspect词语的情感极性。最近的方法通过使用依赖树上的GCN来获得aspect terms的语法感知表示,并学习aspect和上下词之间的交互。GCNs通常在两层的情况下获得最佳性能,更深的GCNs不会带来任何额外的收益。然而,在某些情况下,在依存树上的两跳内不能到达方面术语的对应意见词。因此,本文设计了一种新的基于选择性注意的GCN(SA-GCN)来处理方面词和观点次较远的情况。由于观点词是对aspect-term极性分析的直接解释,因此本文将观点抽取作为辅助任务来辅助情感分析任务。具体地说,在对依赖关系树进行操作的GCN模型的基础上,本文使用自注意力机制直接为句子中的每个单词选择注意力得分最高的k个单词。然后,在生成的前k个关注图上应用另一个GCN来整合来自所选上下文的信息。

1. Introduction

最近的研究表明,方面术语与其上下文(包括观点词)之间的相互作用对于识别对给定术语的情感极性至关重要。大多数研究方法都考虑了来自语境词的语义信息,并利用注意机制来学习这种互动。然而,研究表明,从依存句法分析中获得的句法信息在捕捉表面形式模糊的长程句法关系方面非常有效最近流行的一种学习句法表示的方法是在依存关系树上使用图卷积网络模型,这允许以句法方式在方面词语及其上下文词之间传递消息

在某些情况下,最重要的上下文词,即意见词,距离依存关系树上的方面词语超过两跳,如Figure 1所示(目标Mac OS和依赖关系树上的意见词Easy Pick之间有四个跳跃。):

为了解决上述问题,本文提出了一种新的基于选择性注意的GCN模型(SA-GCN),该模型结合了依赖树上的GCN模型和基于自我注意的序列模型。

  • 自我注意序列模型实现了方面词与其意见词之间的直接交互,从而能够处理依存关系树上该词与意见词相距较远的情况。

具体来说,基本模型是依存关系树上的GCN模型,它应用预先训练的BERT作为编码器,获得方面词及其上下文词的表示,作为依存关系树上的初始节点特征。该模型考虑了目标及其在依存关系树上的句法邻居之间的联系。

接下来,GCN输出被馈送到top-k多头注意力选择模块。

  • 对于每个头部,根据注意力得分矩阵选择前k个重要的上下文词。
  • 这一选择步骤有效地从方面项的上下文中移除了噪声和不相关的词。
  • 然后在选择的代表新图的注意力得分矩阵之上,我们再次应用GCN层来整合来自TOPK重要上下文词的信息。

因此,最终的方面词表示集成了来自BERT的语义表示、来自依存关系树的句法信息以及来自句子序列的top-k参与的上下文单词。然后,该表示被馈送到最终分类层以进行情感预测。

为了进一步加强了情感分类的训练,并辅以意见抽取任务。直觉,将观点词定位为体词有助于情感极性的预测。如图1所示,如果正确地检测到意见词“容易拾取”,它肯定可以帮助模型将情绪分类为积极的。事实上,top-k选择模块就是为了找到这样的观点词而设计的。因此,本文进一步引入了意见词抽取任务,为top-k评选过程提供监督信息。具体地,将SA-GCN的输出直接馈送到CRF解码层,并联合训练情感分类和观点提取任务。

贡献:

  • 提出了一种基于选择性注意的GCN模块(SAGCN),该模块利用GCN相对于依赖树的优势,使方面词能够根据最相关的上下文词直接从观点词中获取信息。这有助于模型处理当方面术语和意见词在依存关系树上彼此远离时的情况。
  • 提出联合训练情感分类和意见抽取任务。联合训练进一步提高了分类任务的性能,并为情感预测提供了解释。
  • 在四个基准数据集上进行了实验,包括来自SemEval 2014任务4的笔记本电脑和餐厅评论,来自SemEval 2015任务12和SemEval2016任务5的餐厅评论,SAGCN获得了新的最先进的结果。

2 Proposed Model

2.1 Overview of the Model

意见提取任务旨在预测标签序列 y o = [ y 1 , . . . , y n ] y_o=[y_1,...,y_n] yo=[y1,...,yn] y i ∈ { B , I , O } y_i\in \{B,I,O\} yi{B,I,O})。

对于构成句-词对的每个实例,句子中除方面词之外的所有词都被定义为上下文词。

2.2 Encoder for Aspect Term and Context

本文使用BERT作为编码器来获得句子的词嵌入。假设一个句子由n个单词 { w 1 , . . . , x τ , w τ + 1 , . . . w τ + m , . . . , w n } \{w_1,...,x_\tau,w_{\tau+1},...w_{\tau +m},...,w_n\} {w1,...,xτ,wτ+1,...wτ+m,...,wn}组成,其中 { w τ , w τ + 1 , . . . , w τ + m − 1 } \{w_{\tau},w_{\tau +1},...,w_{\tau +m-1}\} {wτ,wτ+1,...,wτ+m1}表示包含m个单词的aspect term。

将其处理成"[CLS] + Sentence + [SEP] + term + [SEP]",并将其提供给BERT。该输入格式使得能够在整个句子和术语之间进行显示交互,从而获得的单词表示是term相关的。然后,使用平均池化对BERT的子词所携带的信息进行汇总,得到最终的词嵌入 X ∈ R n × d B X\in R^{n\times d_B} XRn×dB

2.3 GCN over Dependency Trees

以词语表示X作为节点特征,以依存关系树为图,使用GCN来捕获词语结点与其相邻结点之间的句法关系。在每个GCN层中,节点聚集来自其一跳邻居的信息并更新其表示。其中每个单词被视为单个节点,其表示被表示为节点特征。图上的消息传递可以表示如下:

其中 H ( l ) ∈ R n × d h H^{(l)}\in R^{n\times d_h} H(l)Rn×dh是第l个GCN层的输出, H ( 0 ) ∈ R n × d B H^{(0)}\in R^{n\times d_B} H(0)Rn×dB是第一个GCN层的输入。节点特征通过GCN层传递,每个节点的表示现在由依存关系树中的语法信息进一步丰富。

2.4 SA-GCN: Selective Attention based GCN 基于选择性注意的GCN

虽然在依存关系树上执行GCNs为每个词的表示带来了语法信息,但它也限制了方面词和长距离观点词之间的交互,这对确定情感极性是必不可少的。为了缓解这一问题,本文应用了一种基于选择性注意的GCN(SA-GCN)块来识别最重要的上下文词,并将它们的信息整合到term项的表示中。可以堆叠多个SA-GCN块以形成深度模型。每个SA-GCN块由三部分组成:a multi-head self-attention layer, top-k selection and a GCN layer

2.4.1 Self-Attention

  1. 得到的注意力得分矩阵可以被认为是L个完全连通(完全)图,其中每个词都与具有不同关注度的所有其他上下文词相连。
  2. 这种注意力得分矩阵已被用于注意力引导的GCNs进行关系提取。
  3. 尽管关注度有助于区分不同的词,但完全连通图仍然会导致方面节点直接融合所有其他词的信息,并且在GCNs的特征聚合过程中经常引入噪声,进一步损害了情感预测。
  4. 因此,本文提出了一种top-k注意力选择机制来稀疏完全连通图,得到一种新的稀疏图用于GCN的特征聚集。
  5. 这与注意力引导的GCNs不同,GCNs在完全连通的图上执行特征聚合。此外,实验研究也证实了top-k选择非常重要,并且绝对有利于term项分类任务。

2.4.2 Top-k Selection

对于每个注意力得分矩阵 A s c o r e i A_{score}^i Ascorei,模型找出每个词的前k个重要的上下文词,有效的去除了 A s c o r e i A_{score}^i Ascorei中的一些边缘。本文之所以只选择前k个上下文词,是因为只有少数几个词足以确定一个方面词的情感极性。因此,模型丢弃了其他注意力得分较低的单词,以消除不相关的嘈杂单词。作者设计了两种top-k选择策略,头部无关和头部相关。头部独立选择通过聚合所有头部的决策来确定k个上下文词,并在头部之间达成一致,而头部依赖策略使每个头部保留自己选择的k个词。

头部独立选择的定义如下:首先对每个头部元素的注意分数矩阵进行求和,然后利用 t o p k topk topk函数生成的掩码找到前k个上下文词。例如,如果k设置为2,则topk([0.3,0.2,0.5])returns [1,0,1]。最后,对更新后的注意力得分矩阵应用softmax操作:

基于头部的选择根据每个头部的注意力得分矩阵分别寻找前k个上下文词。作者对每个top-k关注矩阵应用Softmax操作。这一步骤可以表述为:

从top-k选择中,作者根据新的注意力得分得到L图,并将它们传递给下一个GCN层。为了简单起见,后面部分的head-ind和head-dep的下标将会省略。得到的top-k得分矩阵A可以看做是一个邻接矩阵,其中 A ( p , q ) A(p,q) A(p,q)表示连接单词p和单词q的边的权重。

2.4.3 GCN Layer

在对每个注意力得分矩阵 A s c o r e i A_{score}^i Ascorei( A s c o r e i A_{score}^i Ascorei不再完全连接)进行top-k选择之后,本文应用单层GCN并获得更新的节点特征如下:

2.5 Classifier

从最后一个SA-GCN块的输出中提取特征项结点特征 H ∧ o \overset{\wedge}{H}_o Ho,并进行平均池化,得到KaTeX parse error: Expected '}', got 'EOF' at end of input: … R^{1\times d_h。然后,将其送入到两层最大似然比已计算最终分类分数 y ∧ s \overset{\wedge}{y}_s ys

本文使用交叉熵作为情感分类的损失函数:

2.6 Opinion Extractor

意见抽取共享相同的输入编码器,即SA-GCN作为情感分类。因此,我们将SA-GCN的输出馈送到线性链条件随机场(CRF)。具体地,基于SA-GCN的输出 H ∧ o \overset{\wedge}{H}_o Ho,输出序列 y o = [ y 1 , . . . , y n ] ( y i ∈ ( B , I , O ) ) y_o=[y_1,...,y_n](y_i\in (B,I,O)) yo=[y1,...,yn](yi(B,I,O))

其中Y表示所有可能的标签序列的集合, T y i − 1 , y i T_{y_{i-1},y_i} Tyi1,yi是转移分数矩阵。

意见抽取任务的损失定义为:

最终,总的损失为:

3. Experiments

3.1 Results

具体来说,BERT+2层GCN的性能优于BERT基线,这证明了使用语法信息的好处。BERT+4层GCN实际上比BERT+2层GCN更差,这表明更多的GCN层并没有带来额外的增益。

本文的BERT+SA-GCN模型的性能进一步优于BERT+2层GCN模型。因为SA-GCN块允许方面项直接吸收来自依存关系树中两跳内不可到达的最重要上下文词的信息。

此外,引入了意见抽取任务,为top-k选择模块提供了更多的监督信号,有利于情感分类任务的完成。

3.2 Qualitative case Study

为了表明SA-GCN模型在处理方面词与其观点词之间长跳的有效性,本文展示了表3所示的3个例子:

这些句子是从14Lap和14Rest数据集的测试集中选择的,SA-GCN模型预测正确,但BERT+2层GCN预测错误。这里需要注意的是,本文的SA-GCN模型可以根据学习到的注意力权重来解释预测,而基于GCN的模型(BERT+2层GCN在表3中表示为“GCN”)不能。Aspect terms用红色表示。对aspect term具有最大关注权重的前3个单词被阴影显示。阴影越暗,关注度越大。

在这三个例子中,aspect terms与基本观点词的距离都在三跳以上,因此BERT+2层GCN模型不能学习两层之间的交互作用,而SA-GCN模型克服了距离的限制,定位了正确的观点词。

4. 启示

  1. 论文写的简直太好了,故事能讲这么好,牛。
  2. 欢迎关注微信公众号:自然语言处理CS,一起来交流NLP。
  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

「已注销」

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值