《Aspect-based Sentiment Classiﬁcation with Aspect-speciﬁc Graph Convolutional Networks》阅读记录

最新推荐文章于 2024-07-20 21:50:45 发布

Sanshierli_

最新推荐文章于 2024-07-20 21:50:45 发布

阅读量2.9k

点赞数 3

分类专栏： NLP学习记录

本文链接：https://blog.csdn.net/qq_40931181/article/details/102747974

版权

NLP学习记录专栏收录该内容

12 篇文章 1 订阅

订阅专栏

《Aspect-based Sentiment Classiﬁcation with Aspect-speciﬁc Graph Convolutional Networks》阅读记录

Abstract

注意力机制和卷积神经网络因其在特定方面及上下文词语义对齐的固有能力，被广泛应用于基于aspect（aspect方面，即用户从哪个角度评论，或者商品从哪个角度介绍，例如价格、性能、服务等）的情感分类。但是，这些模型缺乏解释相关句法约束和远距离单词依赖的机制，因此可能会错误地将与语法无关的上下文单词识别为判断方面情感的线索。为了解决这个问题，论文提出在句子的依赖树上构建图卷积网络（GCN），以利用句法信息和单词依赖。在此基础上，提出一种特定方面的情感分类框架。在三个baseline测试集上进行测试并证明提出的模型与一系列最新模型的效果相当，并且进一步证明了图卷积结构可以正确捕获语法信息和远程单词依赖关系。

1 Introduction

基于方面的（也称为方面级别）情感分类旨在识别句子中明确给出的方面的情感极性。例如，在有关笔记本电脑的评论中说：“从速度到多点触摸手势，该操作系统很容易击败Windows。”操作系统和Windows两个方面的情绪极性分别是正面和负面。通常，此任务被表述为预测所提供的（句子，方面）对的极性。

鉴于手动特征划分的效率不高，基于方面的情感分类的早期工作主要基于神经网络方法。自从Tang等人指出在上下文单词和方面之间建模语义关系的挑战后，注意机制与递归神经网络在最近的模型中开始扮演关键角色。虽然基于注意力的模型很有希望，但是它们不足以捕捉一个句子中上下文单词和特定方面的句法依赖性。因此，当前的注意机制可能导致给定方面错误地将句法上不相关的上下文单词作为描述符(Limitate 1)。看一个具体的例子，“Its size is ideal and the weight is acceptable”。基于注意力的模型通常识别出 acceptable 作为 size 方面的描述符，但事实并非如此。为了解决这个问题，He等人对注意权重施加了一些句法限制，但是句法结构的作用没有得到充分的利用。

除了基于注意力的模型之外，因为某一方面的情感通常是由关键短语而不是单个单词来确定，卷积神经网络（CNN）被用于提取某一方面的描述性多词短语。尽管如此，基于CNN的模型只能通过对单词序列进行卷积操作将多单词特征感知为连续单词，但不足以确定由彼此不相邻的多个单词所表示的情感（Limitate 2）。在“The staff should be a bit more friendly” 一句中将 staff 作为特定的方面，基于CNN的模型可能会通过检测 more friendly 这描述性短语来做出错误的预测，而忽略了 should be 两个词所隐含的反向情绪。

Note：

基于注意力模型，存在错误学习与某一方面不相关的上下文单词的可能性；

基于CNN的模型，不足以学习到不相连单词所隐含的特征。

在本文中，我们旨在通过使用图卷积网络（GCN）解决上面确定的两个限制。 GCN具有多层体系结构，每一层都使用近邻特征来编码和更新图中节点的表示。通过引用句法依赖树，GCN能够将句法相关的单词关联到目标方面，并通过GCN层学习远程多词关系和句法信息。 GCN已利用在文档-单词关系和树结构上，但是如何在基于方面的情感分类中有效使用仍然有待探索。本文提出了Aspect-specific Graph Convonlutional Network（ASGCN），是第一个基于GCN用于特定方面的情感分类的的模型。 ASGCN从双向长短期基记忆网络（LSTM）层开始，以捕获有关单词顺序的上下文信息。为了获得特定于方面的特征，在LSTM输出的顶部加入多层图卷积结构，随后是掩码机制，可过滤掉非特定方面的单词并仅保留高级特定方面的特征。特定于方面的特征被反馈到LSTM输出，以检索有关该方面的信息性特征，然后将其用于预测基于方面的情感。

论文创新：

利用句子中的句法依赖性结构解决基于方面的情感分类的长距离多词依赖问题。
提出了一种方面特定的GCN模型，此方向的首次研究。
实验证明了利用句法信息和远程单词依赖关系的重要性，并证明了模型在基于方面的情感分类中捕获和利用它们的有效性。

2 GCN

3 ASGCN

3.1 Embedding and Bidirectional LSTM

给定一个 n 个单词的句子， $c = \left \{ \omega _{1}^{c}, \omega _{2}^{c}, \cdots ,\omega _{\tau +1}^{c}, \cdots ,\omega _{\tau +m}^{c}, \cdots ,\omega _{n-1}^{c}, \omega _{n}^{c} \right \}$ ，包含从第 $\tau +1$ 个token开始的相应m-word方面（没搞明白？？？），用嵌入矩阵 $E\in \mathbb{R}^{\left | V \right |\times d_{e}}$ 将每个单词token嵌入到低维实值向量空间，其中|V|是词汇的大小， $d_{e}$ 表示单词嵌入的维度。利用句子的单词嵌入，构造双向LSTM产生隐藏状态向量 $H^{c}=\left \{ h_{1}^{c}, h_{2}^{c}, \cdots, h_{\tau +1}^{c}, \cdots, h_{\tau +m}^{c}, \cdots, h_{n-1}^{c}, h_{n}^{c} \right \}$ ，其中 $h_{c}^{t}\in \mathbb{R}^{2d_{h}}$ 代表来自双向LSTM在时间步 t 时的隐藏状态向量， $d_{h}$ 是单向LSTM输出的隐藏状态向量的维度。

3.2 Obtaining Aspect-oriented Features

与一般的情感分类不同，基于方面的情感分类的目标是从方面的角度来判断情感，因此需要面向方面的特征提取策略。通过在句子的句法依赖树上应用多层图卷积，并在其顶部施加一个特定于方面的掩码层，来获得面向方面的特征。

3.2.1 Graph Convolution over Dependency Trees

为了解决现有方法的局限性（如前几节所述），在句子的依赖树上利用了图卷积网络。具体来说，在构造完给定句子的依赖关系树之后，首先根据句子中的单词获得邻接矩阵 $A\in \mathbb{R}^{n\times n}$ 。重要的是要注意依赖树是有向图。虽然GCN通常不考虑方向，但可以将其调整为适合direction-aware的情况。因此，提出了ASGCN的两个变体，即在无向的依赖图上的ASGCN-DG，以及在有向的依赖图上的ASGCN-DT。实际上，ASGCN-DG和ASGCN-DT之间的唯一区别在于它们的邻接矩阵：ASGCN-DT的邻接矩阵比ASGCN-DG的稀疏得多。这种设置与父节点受其子节点广泛影响的现象相符。此外，遵循Kipf和Welling（2017）中的自循环思想，每个单词与自身的邻接矩阵手动设置，即A的对角线值均为1。在第3.1节中的双向LSTM输出的基础上，以多层方式执行ASGCN变体，即 $H^{0}=H^{c}$ ，以使节点了解上下文。然后，使用具有归一化参数的图卷积运算更新每个节点的表示，如下所示：

其中 $g_{j}^{l-1}\in \mathbb{R}^{2d_{h}}$ 是从前一GCN层得来的第 j 个token的表示， $h_{i}^{l}\in \mathbb{R}^{2d_{h}}$ 是当前GCN层的结果，并且 $d_{i}=\sum _{j=1}^{n}A_{ij}$ 是树中第 i 个token的度，权重矩阵跟偏差是训练参数。

要注意的是，模型中没有立即将 $h_{i}^{l}$ 输入连续的GCN层，而是先进行了position-aware 转换： $g_{i}^{l}=F\left ( h_{i}^{l} \right )$ ，其中 $F\left ( \cdot \right )$ 是一个分配位置权重的函数，以前的工作广泛采用该函数用于增强上下文中接近aspect的词的重要性。通过这样做，来减少依赖解析过程中可能自然产生的噪声和偏差。具体表示为： $q_{i}\in \mathbb{R}$ 是第 i 个token的位置权重，最终结果为 $H^{L}=\left \{ h_{1}^{L}, h_{2}^{L}, \cdots, h_{\tau +1}^{L}, \cdots, h_{\tau +m}^{L}, \cdots, h_{n-1}^{L}, h_{n}^{L} \right \}$ , $h_{t}^{L}\in \mathbb{R}^{2d_{h}}$

3.2.2 Aspect-specific Masking

通过这一层屏蔽掉 non-aspect 单词的隐藏状态向量，并使aspect单词的状态保持不变： $h_{t}^{L}=0，1<=t<\tau +1$ ， $1\leqslant t< \tau +1, \tau +m< t\leqslant n$ 。该 zero-masking 的输出是面向方面的特征 $H_{mask}^{L} = \left \{ 0, \cdots , h_{\tau +1}^{L},\cdots ,h_{\tau +m}^{L},\cdots ,0 \right \}$ 。通过图卷积，这些特征 $H_{mask}^{L}$ 感知到aspect周围的上下文，从而既考虑了句法依赖又考虑了长距离多词关系。

3.3 Aspect-aware Attention

基于面向方面的特征，通过一种新颖的基于检索的注意力机制来生成隐藏状态向量 $H^{c}$ 的精确表示。这个想法是从隐藏的状态向量中检索与方面单词在语义上相关的重要特征，并因此为每个上下文单词分别设置基于检索的注意力权重。注意力权重计算如下：

在这里，点积用于计算方面相关词与句子中的词之间的语义相关性，以便方面特有的掩码（即零掩码）发挥作用。因此，最终的预测表示为： $r= \sum _{t=1}^{n}\alpha _{t}h_{t}^{c}$ 。

3.4 Sentiment Classification

获得表示 r 后，将其馈入完全连接层与softmax归一化层，以在极性判定空间上产生概率分布 $P\in \mathbb{R}^{d_{p}}$ ： $P=softmax\left ( W_{p}r+b_{p} \right )$ ，其中 $d_{p}$ 与情感标签的维数相同， $W_{p}\in \mathbb{R}^{d_{p}\times 2d_{h}}$ 与 $b_{p}\in \mathbb{R}^{d_{p}}$ 分别是学习的权重跟偏差。

3.5 Training

该模型采用带交叉熵损失和L2正则化的标准梯度下降算法进行训练： $Loss=-\sum _{\left ( c,\hat{p}\in C \right )}logP_{\hat{p}}+\lambda \left \| \Theta \right \|_{2}$ ，其中C表示数据集集合， $\hat{p}$ 是标签， $P_{\hat{p}}$ 意味着 P 中的第 $\hat{p}$ 个元素， $\Theta$ 表示全部训练参数， $\lambda$ 表示L2正则化的系数。

4 Experiments

4.1 Datasets and Experiments Settings

实验是在五个数据集上进行的：一个推特帖子，而另外四个（LAP14，REST14，REST15，REST16）分别来自2014年SemEval Task 4，SemEval2015 Task 12和SemEval 2016 Task 5，由笔记本电脑和餐厅两类数据组成。删除REST15和REST16语句中具有冲突极性或没有明显方面的样本，表1记录了数据集的统计数据。对于所有的实验，都使用300维预训练的GloVe向量来初始化单词嵌入，所有模型权重均采用均匀分布进行初始化，隐藏状态向量的维数设置为300，使用Adam作为优化器，学习率为0.001，L2正则化系数为105，批大小为32。此外，GCN层数设置为2（试验中表现最好）。通过对随机初始化的3次运行求平均值，从而获得实验结果，其中，将Accuracy和Macro-Averaged F1用作评估指标，并对Accuracy和Macro-Averaged F1进行了配对样本T检验（Paired-Samples T Test，用于检验两个配对总体的均值是否存在显著性差异。配对是指两个样本值之间是一一对应的，样本容量相同），以验证模型效果显著性。

4.2&3 Models for Comparison & Results

4.4 Ablation Study

为了进一步检查ASGCN模型的每个部分对表现的影响，对ASGCN-DG进行了消融实验。结果显示在表3中。并将BiLSTM + Attn的结果作为对比，该方法分别使用两个LSTM作为aspect和上下文。首先，去除位置权重会导致LAP14，REST15和REST16数据集的表现下降，但会提高TWITTER和REST14数据集的表现。根据REST14数据集的主要结果，可得结论是如果语法对数据不重要，则位置权重的集成无助于减少用户生成内容的噪声。而且，在摆脱了特定于方面的掩码（即不带掩码的ASGCN-DG）之后，该模型无法保持与TNet-LF一样的竞争力。这验证了方面特定的掩码的重要性。与ASGCN-DG相比，不带GCN的ASGCN-DG（即保留位置权重和特定方面的掩码，但不使用GCN图层）在除TWITTER数据集上的F1度量标准外，在所有五个数据集上的表现要弱得多。但是，由于方面特有的掩蔽机制的优势，不带GCN的ASGCN-DG（除REST14数据集外）仍比BiLSTM + Attn的所有数据集略好。因此，可以得出结论，因为GCN同时捕获了句法单词的依赖关系和长距离单词的关系，所以GCN在很大程度上有助于ASGCN。尽管如此，正如在TWITTER和REST14数据集中看到的那样，GCN在对语法信息不敏感的数据集上并没有达到预期的效果。

4.5 Case Study

案例研究。将MemNet，IAN，ASCNN和ASGCNDG在表4中提供的注意力得分以及它们对这些示例的预测以及相应的真相标签可视化。第一个样本“great food but the service was dreadful！”这一句话中有两个方面，会妨碍基于注意力的模型将这两个方面与它们的相关描述性词语准确地对齐。第二个示例句子“The staff shuld be a bit more friendly。”使用虚拟词“should”，这在检测隐含语义方面带来了额外的困难。最后一个示例在句子中包含否定词，这很容易导致模型做出错误的预测。 MemNet在所有三个示例中均失败，IAN可以针对不同方面使用不同的修饰语，但它无法推断具有特殊风格的句子的情感极性。有了位置权重，ASCNN可以正确预测第三个样本的标签，因为did not 短语对于Windows 8而言是一个有意义的信号，但是对于具有长距离单词依赖性的“touchscreen”则相反。ASGCN-DG可以正确处理所有这三个样本，GCN有效地将语法相关性信息集成到了丰富的语义表示中。尤其是ASGCN-DG对第二个和第三个正确的预测，这两个预测似乎都有偏见，充分表明ASGCN能够捕获长距离多词特征。

5 Discussion

5.1 Investigation on the Impact of GCN Layers

ASGCN包含L层的GCN，此节研究层数L对ASGCN-DG最终表现的影响。改变集合{1,2,3,4,6,8,12}中的L值，并在LAP14数据集上检查ASGCN-DG的相应Accuracy和Macro-Averaged F1，结果如图3所示。当L为2时，ASGCN-DG均达到最佳表现，这证明了在实验部分中对层数的选择是正确的。此外，随着L的增加，两个指标都呈现下降趋势。随着L增大尤其是当L等于12时，由于参数量过多，ASGCN-DG将变得难以训练。

5.2 Investigation on the Effect of Multiple Aspects

在数据集中，一个句子中可能存在多个方面的词，因此进行实验测试这种现象是否会影响ASGCN的有效性。根据句子中方面词的数量将LAP14和REST14数据集中的训练样本分为不同的组，并计算这些组之间的训练accuracy差异。值得注意的是，具有7个以上方面词的样本作为异常值被移除，因为这些样本的大小太小，无法进行任何有意义的比较。从图4中可以看出，当句子中的方面数大于3时，准确性会发生变化，意味着捕获多方面相关性的鲁棒性较低，这表明在将来的工作中需要对多方面相关性进行建模。

6 Related Work

在单词序列上构建神经网络模型，例如CNN，RNN和递归卷积神经网络（RCNN），在情感分析中取得了可喜的表现。但是，人们也认识到了利用依赖树来捕获单词的远距离关系的有效机制的重要性，但缺乏这种机制。Tai等人表明，具有依赖树或选区树的LSTM优于CNN，Dong等人提出了一种使用依赖树的自适应递归神经网络，并取的好效果。最近的研究表明，一般的基于依赖的模型很难获得与基于注意力的模型相当的表现，因为依赖树无法正确捕获长距离的上下文语义信息。但是图卷积网络（GCN）可以解决这一限制。 GCN最近在人工智能领域引起了越来越多的关注，并已应用于自然语言处理（NLP）。 Marcheggiani和Titov（2017）声称GCN可以被视为LSTM的补充，并提出了基于GCN的语义角色标记模型。 Vashishth等人和Zhang等人在文档日期标记和关系分类中分别使用了依赖树上的图卷积。 Yao等人将GCN引入到利用文档-词和词-词关系的文本分类中，并获得了对各种最新方法的改进。本文通过图卷积深入研究了依赖树的影响，并开发了特定于方面的GCN模型，该模型与LSTM架构和注意力机制集成在一起，可以更有效地基于方面进行情感分类。

7 Conclusions and Future Work

通过重新审视针对特定方面情感分类的现有模型所面临的挑战，指出了图卷积网络（GCN）应对这些挑战的适用性。提出利用GCN进行基于方面的情感分类。实验表明，GCN通过充分利用句法信息和长距离单词依赖关系，提升了整体性能。该研究可能会在以下几个方面得到进一步改进。首先，在这项工作中没有利用句法依赖树的边信息，即每个边的标签；其次可以合并领域知识。最后，ASGCN模型可以扩展为通过捕获方面词之间的依赖性来同时判断多个方面的情感。

Sanshierli_

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
《Aspect-based Sentiment Classiﬁcation with Aspect-speciﬁc Graph Convolutional Networks》阅读记录

《Aspect-based Sentiment Classiﬁcation with Aspect-speciﬁc Graph Convolutional Networks》阅读记录Abstract注意力机制和卷积神经网络因其在特定方面及上下文词语义对齐的固有能力，被广泛应用于基于aspect（aspect方面，即用户从哪个角度评论，或者商品从哪个角度介绍，例如价格、性能、服务等）的...
复制链接

扫一扫

专栏目录