论文分享（2）MASAD: A Large-Scale Dataset for Multimodal Aspect-Based Sentiment Analysis

最新推荐文章于 2024-09-05 13:13:45 发布

爬行的研究生

最新推荐文章于 2024-09-05 13:13:45 发布

阅读量725

点赞数 1

文章标签： nlp 情感分析深度学习

本文链接：https://blog.csdn.net/qq_18838211/article/details/121128876

版权

文章目录

摘要
一、引言
二、正文
三.总结

摘要

提示：以下是本篇文章正文内容，下面案例可供参考
首先是近年来情感分析主要聚焦判定给定方面的情感极性，而在多模态的情感分析，特别是融合视觉信息上研究很少。但是多模态信息变得越来越流行，与此同时不同模态的信息可以帮助提取给定方面的情感。在缺少这方面研究的情况之下，本文提出一种多模态交互模型去学习图片，文本和给定方面之间的关联。此外本文还构建一个用于多模态情感分析任务（MASA）的数据集。这其中包含了58个方面和38000个文本-图片对。最后是在构建的数据集上进行大量实验并提供基准。

一、引言

首先，在当今互联网中情感分析在舆论，决策，消费，共享方面影响力越来越大。但是主要都是集中在纯文本的领域内。但是越来越多的人使用图片去表达体验和观点。基于此，本文着眼于图片和文本结合的情感分析。任务主要分为方面抽取（AE）和情感极性预测（AP）。首先是根据图像-文本对提取方面，然后在判定其的情感极性。
为了更好的完成多模态的情感分析任务，本文构建了大规模的数据集用于方面级情感分析。这个数据集是文本-图片对的形式，同时有着57个方面以及38000条数据。无论是形式，类别还是数量都远远优于现有的公开数据集。
最后作者提出了一种多模态交互模型来评估MASA任务所面的挑战并给出一些基准。本模型采用最先进的文本和图像的编码技术，然后通过多模态交互曾来学习方面，文本和视觉之间的关系。同时设计一种对抗训练策略，把文本和图像的特征对齐到一个公共空间。

二、正文

1.相关工作

本文把工作分为两个部分，一是基于方面的情感分析，另一个是多模态情感分析。
首先，基于方面的情感分析是情感分析中的重要人物，早期都是通过人工标注特征的机器学习的方式，后来深度神经网络以及大规模预训练模型使得人工不需参与到特征提取中去，同时注意力机制的出现提高了准确率。在数据集方面也不再仅限于早先年的会议或者竞赛提供的公开数据集，不少人开始自己构建数据集。但是上述所有的工作都是限于文本领域，而忽视了视觉信息。最近，Xu等人。提出了多模态方面层面情绪分析的任务。与他们不同是，本文目标是探索方面，文本和图像之间的联系，并构建多模态数据集和多模态模型去解决这个任务。
在多模态情感分析领域，已经有人关注。Ghosal等人开发了一个基于RNN的多模态注意模型，利用语境信息进行话语水平的情绪分析。但是这些人都是集中于一段对话，在方面级别的多模态情感分析任务只有上面提到的Xu等人。但是他们没有去关注不同模态数据的对齐问题。本文拟提出一种方式把两个模态的数据的特征表示对齐到一个空间中去。

2.数据部分

2.1 任务描述

MASA：多模态方面级情感分析任务，主要是两个子任务，特性提取(AE)和特性极性预测(AP)

2.2 数据集

数据来源于两个公开课获得图像数据集，Visual Sentiment Ontology (VSO) dataset 2 [44] and Multilingual Visual Sentiment Ontology (MVSO) dataset。但是这些数据只有图像没有文本，有很多噪音且很多情感色彩不明的数据。本文首先筛选有用的图片，大约38000条。然后通过抓取图片信息形成文本数据。最后是将图片-文本对标注任务发布在阿里众包上。我们找了3个工人去标注这些数据，最终通过投票的方式获得标签。我们同时计算了Krippendorff’s alpha coeffificient系数。值为0.85表明三个标注之间有高度相关性。最终构建成一个38000条，57个方面的数据集。
在这里插入图片描述

3.模型部分

3.1 特征表示

本文主要是文本，图片和方面三类数据的特征表示
对于文本，本文先是通过GloVe，把单词转化为300维度的向量表示。之后采用的是BiLSTM获得文本的特征表示RT=[正向hn;反向hn]。
对于图片，本文是采用50层的残差网络来获取图片的特征表示。
在这里插入图片描述
对于方面，直接通过词嵌入，获取特征表示。

3.2 对抗训练

由于是不同模态的信息，存在特征表示不在同一维度空间问题，本文采用对抗训练的策略。首先受X. Chen, Z. Shi, X. Qiu, X.-J. Huang, Adversarial multi-criteria learning for chinese word segmentation, in: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2017, pp. 1193–1203. 影响，在这个对抗训练模型中我们要生成同一空间内新的文本和图片的特征表示。首先是把文本和图片各自维度空间下的特征表示传入，通过归一化两个交叉熵，然后最小化交叉熵得到最优解，使得鉴别器能够最大准确度去区分文本和图片的特征表示。然后是生成器，由于传统生成器和鉴别器存在对抗（即生成器会生成鉴别器难以识别的特征表示），所以文章计划设计新的生成模型最大程度依据文本和图像对生成的特征和标签。

3.3 多模态交互

在这一部分本文提出一个新的特征表示，用于表示不同模态之间的交互特征表示

在这里插入图片描述

其中A是可学习参数，b是偏差

3.4 AE任务

在这里插入图片描述

输入是RIT，即文本-图片之间的交互特征表示

3.5 AP任务

首先输入是对抗训练后的文本-图片表示的集合和方面的特征表示，把三者传输到多模态交互层，根据三种策略，得到文本-图像，文本-方面，图像-方面的交互特征表示，然后传输到情感极性层。

3.6 联合训练

把两个子任务分别和对抗训练联合训练得到两个新的最终损失，然后最优化损失。
对于AE：在这里插入图片描述

对于AP：在这里插入图片描述

4.实验结果

在这里插入图片描述可以看出本文提出的多模态模型，效果比只用文本和现如今最好的多模态模型的预测结果要好。

在这里插入图片描述
这张表证明了图片上的方面提取效果不好，未来可以在这方面继续研究。同时不同模态直接特征的交互表示要比直接连接不同模态的特征效果要好。

三.总结

本文通过构建一个约38000条，设计57个方面的图片-文本数据集。同时提出了基于多模态交互的方面级情感分析模型。并验证本模型优于现如今最好的多模态模型以及多模态比纯文本的情感分析有着更好的效果。最后在对比试验阶段，提出了多种对比基准。
综上所述和实验结果分析，我们发现MASA比基于文本方面的情感分析更具有挑战性。同时本文也提出了未来值得研究的方向：1.设计更具表现力的模型架构来学习跨模态信息；2.探索如何把多模态的AE任务和AP任务结合起来；3.是否可以利用迁移学习，提高MASA的性能；4.扩展其他语言的数据集。