论文地址
https://arxiv.org/pdf/2306.01004.pdf
主要内容
这篇文章的主要内容是关于一种名为Aspect-oriented Method (AoM)的方法,它用于多模态基于方面的(Multimodal Aspect-based Sentiment Analysis,简称MABSA)情感分析。MABSA的目标是从图文对中提取方面(aspect terms)并识别它们的情感极性。文章指出现有的方法在将整个图像与相应方面对齐时存在局限性,因为图像的不同区域可能与同一句子中的不同方面相关,粗略的图像-方面对齐可能会引入视觉噪声。此外,特定方面的情感也可能受到其他方面描述的干扰(即文本噪声)。
为了解决这些问题,AoM方法包括两个关键模块:
Aspect-Aware Attention Module (A3M):旨在通过注意力机制同时选择与方面语义相关的文本标记和图像块。
Aspect-Guided Graph Convolutional Network (AG-GCN):用于准确聚合情感信息,通过图卷积网络模拟视觉-文本和文本-文本之间的交互。
文章还详细介绍了AoM方法的相关工作、方法论、实验设置、主要结果、消融研究和案例研究,并提供了注意力可视化来展示A3M和AG-GCN模块如何工作。此外,文章讨论了该方法的局限性,并对未来的研究方向提出了建议。
主要贡献
这篇文章的主要贡献可以总结为以下几点:
-
提出Aspect-oriented Method (AoM):文章提出了一种新的方法,用于多模态基于方面的文本情感分析(MABSA),该方法专注于检测与方面相关的语义和情感信息。
-
设计Aspect-Aware Attention Module (A3M):开发了一个新颖的注意力模块,用于细粒度的图像-文本对齐,以选择与方面语义相关的文本标记和图像块,从而提高分析的准确性。
-
实现Aspect-Guided Graph Convolutional Network (AG-GCN):引入了一个图卷积网络模块,用于聚合情感信息,并通过引入情感嵌入来减少不同方面之间的情感干扰。
-
构建多模态加权关联矩阵:创建了一个包含方面到图像块相似度和词到词依赖性的加权关联矩阵,以更精确地捕捉方面相关的信息。
-
实验验证:在两个基准数据集上进行的广泛实验表明,AoM方法在MABSA任务上超越了现有的最先进方法,证明了其有效性。
-
源代码公开:文章提供了实现AoM方法的公开源代码,促进了研究的透明度和可复现性。
-
消融研究和案例分析:通过消融研究和案例分析,文章进一步展示了AoM中各个组件的贡献和重要性。
-
可视化分析:提供了注意力机制的可视化,帮助理解模型是如何学习并关注与方面相关的信息的。
-
讨论局限性和未来工作:文章讨论了当前方法的局限性,并为未来的研究方向提出了建议。
这些贡献表明,AoM方法在处理多模态情感分析任务时,能够更有效地处理视觉和文本噪声,并提高情感分析的准确性。
模型图

技术细节
首先定义多模态特征抽取:
图片经过ResNet得到图像表示,然后夹在<img>和</img>
文字经过BART得到文本特征,然后夹在<bos>和<eos>
然后二者拼接一起输入BART编码
得到多模态隐藏层表示H=
其中hiV 表示第i个图像块经过ResNet再经过BART得到的图像表示
hjT 表示第j个词经过预训练BART再经过BART得到的文本表示

l表示一句话中所有名词的数量(方面基本都是名词吧)
CA:candidate aspects 候选方面
名词方面抽取使用Spacy,也是用BART编码
以候选方面词为导向的注意力机制:

W、b为可训练参数
⊕是矩阵和向量之间的运算符,其中向量被复制到适当的大小以与矩阵拼接。
ht是H经过BART编码器后的表示

候选方面的加权和来获得与方面相关的隐藏特征htA
如果视觉块与第j个方面强相关,则对应的αt,j约为1,htA在语义上等于方面。
如果视觉块与任何特定的候选方面都不相关,那么αt和htA都将是零类无信息向量
这文章符号有点迷啊,读不下去了,就这样吧
833

被折叠的 条评论
为什么被折叠?



