A Hierarchical Interactive Network for Joint Span-based Aspect-Sentiment Analysis 论文阅读笔记

呦，又写BUG呢

已于 2022-12-11 18:17:00 修改

阅读量257

点赞数

分类专栏：方面情感分析文章标签：论文阅读人工智能情感分析

于 2022-12-11 15:42:46 首次发布

本文链接：https://blog.csdn.net/qq_43686863/article/details/128275424

版权

方面情感分析专栏收录该内容

13 篇文章 3 订阅

订阅专栏

一、作者

Wei Chen、Jinglong Du、Zhao Zhang、Fuzhen Zhuang、Zhongshi He

College of Computer Science, Chongqing University, Chongqing, China

Institute of Artificial Intelligence, Beihang University, Beijing, China

College of Medical Informatics, Chongqing Medical University, Chongqing, China

Institute of Computing Technology, Chinese Academy of Sciences, Beijing, China

School of Computer Science, Beihang University, Beijing, China

二、背景

方面情感分析（ASA）分为方面抽取（AE）和情感分类（SC）两个子任务。

大多数现有的方法均为基于跨度的方法，这类方法通过预测边界分布来提取方面，并根据方面级别词（aspect-level words）对情感极性进行分类。从模型形式上来说，根据在不同任务中编码相应特征的方式可以将现有模型分为两类：

顺序编码：作为一种单向交互策略，不同任务中的特征会被顺序提取，即后续任务提取的特征对前序任务不会有直接影响。
并行编码：采用这种方式时，除了各个任务间的共享输入以外，特定任务的特征也是独立提取的。

因此以上两种方式都无法有效建模AE和SC之间的双向交互。但实际上，给定所需的方面可以帮助更好地理解情感词，比如用情感词“大”分别形容“电池容量”和“误差”这两个方面；此外，情感表示也往往会贴近于特定的方面，比如当餐厅的评论中出现的辣、咸等词往往会与食物相关。

三、创新点

为了更好地实现AE与SC两个子任务的双向交互，作者提出了一个分层交互模型（Hierarchical Interactive model for joint span-based Aspect-Sentiment Analysis）。该模型中的浅层交互模块通过学习语义交互特征以促进两个子任务间的信息共享，而深层交互模块则是通过互信息最大化技术来促进交互。

四、具体实现

1.浅层交互

作者借助于计算机视觉领域中的十字绣机制（crossstitch mechanism）来实现AE和SC之间的浅层交互。

具体的交互过程为 $\begin{bmatrix} {\boldsymbol H}_a^1 \\ {\boldsymbol H}_s^1 \end{bmatrix} = \begin{bmatrix} {\boldsymbol \gamma}_{aa} & {\boldsymbol \alpha}_{sa} \\ {\boldsymbol \alpha}_{as} & {\boldsymbol \gamma}_{ss} \end{bmatrix}\begin{bmatrix} {\boldsymbol H}_a^0 \\ {\boldsymbol H}_s^a \end{bmatrix}$ ，其中 ${\boldsymbol \gamma}_{aa}$ 和 ${\boldsymbol \gamma}_{ss}$ 为两个子任务所独有的参数， ${\boldsymbol \alpha}_{sa}$ 和 ${\boldsymbol \alpha}_{as}$ 则为任务共享的参数， ${\boldsymbol H}_a^1$ 和 ${\boldsymbol H}_s^1$ 为浅层交互的输出。

此外，为了加速训练，作者为浅层交互制定了约束 ${\boldsymbol \gamma}_{aa} = {\boldsymbol \gamma}_{ss}, {\boldsymbol \alpha}_{sa} = {\boldsymbol \alpha}_{as}$ 和 ${\boldsymbol \gamma}_{aa} + \boldsymbol{ \alpha}_{sa} = 1$ ，训练过程也就简化为 $\begin{cases} {\boldsymbol H}_a^1 = \alpha \cdot {\boldsymbol H}_s^0 + (1 - \alpha) \cdot {\boldsymbol H}_a^0 \\ {\boldsymbol H}_s^1 = \alpha \cdot {\boldsymbol H}_a^0 + (1 - \alpha) \cdot {\boldsymbol H}_s^0 \end{cases}$ 。

2.深层交互

浅层交互可以实现语义级别的交互，但无法对任务级别的交互进行恰当的建模。作者通过观察发现，在基于跨度的方面抽取模型中，实体词会获得更高的分数，但是在进行方面情感学习时，除了情感词以外，实体词也会得到更高的注意力权重，作者由此推断基于AE和SC进行方面和情感的互相学习能进一步提高模型效果。由此，基于互信息最大化技术，作者实现了方面抽取和情感分类两个子任务之间的深层交互。

a.方面抽取

作者通过预测边界来获取句子中每个词的方面得分，进而提取方面。

作者首先通过线性分类器来预测起始位置得分和结束位置得分，最终得到概率分布分别记为 $g_s$ 和 $g_e$ 。作者认为，不应当直接通过方面的边界分布来计算方面得分，因为二者含义并不相同同，于是借助于池化操作，可以将方面得分定义为： $\mathcal{E} = \frac{\mathrm{pooling}(g_s) + \mathrm{pooling}(g_e)}{2}$ ，其中池化函数采用窗口大小为1$\times$3的平均池化。

b.情感分类

作者借助于反复注意力模型（over-and-over attention model）来实现情感分类，训练过程中得到的情感分布 $\mathcal{A}$ 作为情感特征可以在后续用于优化方面检测。

c.互信息最大化

互信息最大化基于前序子任务获得的方面分布 $\mathcal{E}$ 和情感分布 $\mathcal{A}$ 。

训练过程中需要最大化两个分布的相似性，由此作者采用了JS散度来衡量相似度，即有 $JS(\mathcal{E}||\mathcal{A}) = \frac{1}{2}KL(\mathcal{E}||\frac{\mathcal{E} + \mathcal{A}}{2}) + \frac{1}{2}KL(\mathcal{E}||\frac{\mathcal{A} + \mathcal{A}}{2})$ 。

最终，深层交互可以表示为 $\underset{\theta}{\mathrm{argmin}} = \mathcal{J}_{ae} + \mathcal{J}_sc + \beta \cdot JS(\mathcal{E} || \mathcal{A})$ 。

五、实验

作者采用了Laptop（Pontiki et al., 2014）、Restaurant（Pontiki et al., 2014, 2015, 2016）和Tweets（Mitchell et al., 2013）三个数据集作为实验数据集。

作者的实验结果如下图所示：

消融实验分别围绕浅层交互（SI）和深层交互（DI）进行，作者认为HI-ASA能取得良好效果的主要原因是实现了基于任务级别的双向特征交互。

此外，作者也基于交互参数 $\alpha$ 进行了实验，实验结果如下：

当 $\alpha$ 为0时，模型退化为并行编码，其中基于Restaurant数据集进行的实验对 $\alpha$ 的要求更高，作者推断这可能是因为该数据集中的样本更多，需要更多的知识交互。此外， $\alpha$ 的值不应大于0.5，应以当前任务特征为主，另一任务特征为辅，而不能本末倒置。

呦，又写BUG呢

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
A Hierarchical Interactive Network for Joint Span-based Aspect-Sentiment Analysis 论文阅读笔记

A Hierarchical Interactive Network for Joint Span-based Aspect-Sentiment Analysis 论文阅读笔记
复制链接

扫一扫

专栏目录