VLP-MABSA论文概要 2022 ACL（多模态情感分析）

最新推荐文章于 2024-07-25 22:26:10 发布

Musennn

最新推荐文章于 2024-07-25 22:26:10 发布

阅读量1.4k

点赞数 31

分类专栏：多模态情感分析学习笔记文章标签：深度学习人工智能 pytorch

本文链接：https://blog.csdn.net/Musennn/article/details/137209618

版权

多模态情感分析学习笔记专栏收录该内容

4 篇文章 2 订阅

订阅专栏

VLP-MABSA论文概要 2022 ACL（多模态情感分析）

一.过往研究的缺陷

单独使用预训练的视觉和文本模型，这忽略了跨模态对齐；
要么使用用一般预训练任务预训练的视觉语言模型，这不足以识别细粒度的方面、观点及其跨模态的对齐。

二.主要任务及创新点

我们为MABSA引入了一个特定于任务的视觉语言预训练框架，名为VLP-MABSA，它是一个统一的多模态编码器——解码器架构，用于所有预训练和下游任务。
除了一般的MLM和MRM任务，我们进一步引入了三个特定于任务的预训练任务，包括文本方面——意见提取、视觉方面——意见生成和多模态情感预测，以识别细粒度的方面、意见及其跨模态对齐。

三.主要网络架构

文章介绍了一个针对MABSA任务的特定任务视觉-语言预训练框架（VLP-MABSA），它基于一个统一的多模态编解码器架构，设计用于预训练和下游MABSA任务。这个架构受到基于BART生成模型在文本基方面情感分析（ABSA）中成功的启发。提出的VLP-MABSA架构融合了视觉和语言输入，旨在通过利用多模态数据的优势，理解和分析细粒度方面的情感。

1. 特征提取

图像表示：模型采用Faster R-CNN从图像中提取视觉特征。它保留了36个置信度最高的区域，并使用Faster R-CNN处理后的平均池化卷积特征作为视觉表示。这些特征随后通过线性变换层被转换，以与文本嵌入的维度相匹配。
文本表示：将文本输入进行分词并输入到嵌入矩阵中，以获得文本特征，确保文本表示在维度上与视觉特征对齐。

5.编解码框架

编码器：一个多层双向Transformer，改编自BART，处理连接的多模态输入（结合文本和视觉特征）。使用特殊标记（img和/img表示视觉，bos和eos表示文本）来区分不同模态的输入。
解码器：也是一个多层的Transformer，但是单向的，解码器为预训练和下游任务生成输出。它在输入的开头使用特殊标记来表示不同的任务（例如，bos mlm表示掩蔽语言建模）。

2.预训练任务

预训练包括三种类型的任务，旨在增强模型理解和对齐多模态输入的能力，以便于情感分析：

文本预训练：包括掩蔽语言建模（MLM）和文本方面意见提取（AOE），侧重于根据上下文理解和生成文本，以及从文本中提取方面和意见术语。
视觉预训练：包括掩蔽区域建模（MRM）和视觉方面意见生成（AOG），旨在预测掩蔽图像区域的语义类别，并从图像中生成方面-意见对。
多模态预训练：多模态情感预测（MSP）利用文本和图像输入来预测给定多模态内容的情感，旨在捕捉跨模态的情感对齐。

3.下游MABSA任务

微调后的VLP-MABSA模型针对MABSA的三个子任务：

联合多模态方面情感分析（JMASA）：在多模态输入中识别方面-情感对。
多模态方面术语提取（MATE）：提取在文本和相关图像中提到的方面术语。
多模态方面导向的情感分类（MASC）：考虑文本和图像输入，对提取的方面术语进行情感分类。

代码仓库：link

Musennn

关注

31
点赞
踩
29

收藏

觉得还不错? 一键收藏
1
评论
VLP-MABSA论文概要 2022 ACL（多模态情感分析）

文章介绍了一个针对MABSA任务的特定任务视觉-语言预训练框架（VLP-MABSA），它基于一个统一的多模态编解码器架构，设计用于预训练和下游MABSA任务。提出的VLP-MABSA架构融合了视觉和语言输入，旨在通过利用多模态数据的优势，理解和分析细粒度方面的情感。
复制链接

扫一扫

专栏目录