TMBL: Transformer-based multimodal binding learning model for multimodal sentiment analysis
一. KBS2023-TMBL-用于多模态情感分析的极向量和强度向量混合器模型
1 Abstract
多模态情感分析是人机交互研究的重要方向,它可以通过同时分析文本、视频和声音特征来准确识别个体的情绪状态。尽管当前的情绪识别算法使用多模态融合策略表现良好,但仍然存在两个关键挑战。第一个挑战是在融合之前有效提取模态不变和模态特定的特征,这需要不同模态之间的深层特征交互。第二个挑战涉及区分模态特征之间的高级语义关系的能力。为了解决这些问题,我们提出了一种新的模态绑定学习框架,并重新设计了 Transformer 模型的内部结构。我们提出的模态绑定学习模型通过结合双模态和三模态绑定机制解决了第一个挑战。这些机制分别处理模态特定和模态不变的特征,并促进跨模态交互。此外,我们通过在变压器结构的前馈层和注意层中引入细粒度卷积模块来增强特征交互。为了解决第二个问题,我们分别引入了 CLS 和PE特征向量来表示模态不变和特定模态特征。我们使用相似性损失和相异性损失来支持模型收敛。在广泛使用的 MOSI 和 MOSEI 数据集上的实验表明,我们提出的方法优于最先进的多模态情感分类方法,证实了其有效性和优越性。源代码 可以在 https://github.com/JackAILab/TMBL 找到。
1.1 Motivation
多模态情感分析旨在判断互联网用户在各种社交媒体平台上上传的多模态数据的情感。
(1)然而,一方面,现有研究侧重于文本、音频和视觉等多模态数据的融合机制,而忽略了文本与音频、文本与视觉的相似性以及音频与视觉的异质性