2020_ACM MM_MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis

最新推荐文章于 2025-07-24 15:36:39 发布

原创

最新推荐文章于 2025-07-24 15:36:39 发布 · 6.7k 阅读

38 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

MISA模型旨在解决多模态情感分析中的模态融合问题，通过学习模态不变和模态特定的表示空间。模态不变空间捕捉不同模态间的共享特征，减少模态差异，而模态特定空间则保留每种模态的独特信息。模型采用分布相似性损失、正交损失和重构损失来学习这些表示，并通过Transformer进行特征融合。实验结果表明，MISA在多个数据集上表现出色，提高了情感预测的准确性。

MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis

论文地址：https://dl.acm.org/doi/abs/10.1145/3394171.3413678?casa_token=oI8VnZ8Eg10AAAAA:mVUbDA0AZiAXcDxiDmV9-ooRH4PxzlSMXkBCgm1OCopziDWz8U3ZU54VzJIfqCCsbRFAvk8_kJhzBQ

简介

解决多模态情感分析任务的一个主要方法是开发一个复杂的融合技术，在多模态情感分析任务中，尽管基于注意力的模型和基于张量融合等方法都取得了一些进展，但是这些融合技术会受到不同模态存在模态鸿沟的挑战。

为了能够学习互补的信息以尽量减少冗余(引入了模态不变空间)并纳入多样化的信息集(引入了模态特定的空间)，并学习捕获这些理想特性的潜在模态表征以帮助多模态的融合，本文提出了MISA模型，它能够通过学习有效地模态表征来辅助特征融合过程。该模型学习每个模态的分解子空间，以获得更好的模态表征用于融合的输入。MISA为每种模态学习了两种不同的表示空间：

第一个表示空间是模态不变的(Modality-Invariant)，学习不同模态表征之间的共性并减少模态差距。虽然多模态信号来自不同的模态，但是这些不同的模态有着共同的动机和说话者的目标。不变映射有助于捕获做这些潜在地共性和相关的特征，作为共享子空间上的对齐投影。
第二个表示空间是模态特定的(Modality-Specific)，该空间是每一种模态所特有的，并学习模态特有的特征。对于任何信息，每种模态都有自己独特的特征，包括说话者的表达风格信息，这种特异性的细节往往与其他模态不相关，被称为噪音。但是这种噪音在预测情感状态是非常有用的，例如说话者倾向于讽刺的表达方式，就偏重于极端情感的表达。

学习模态特定的特征和不变空间中捕获的共同潜在特征，可以提供一个全面的多模态语料表征，并使用这个完整的表征进行融合，然后用于分类任务。

为了学习模态不变和模态特定的两个子空间，需要结合各种损失：

分布相似性损失(distributional similarity loss)：用于不变特征。
正交损失(orthogonal loss)：针对特定特征。
重建损失(reconstruction loss)：针对具有代表性的模态特征。
任务预测损失(task prediction)：用于最终的分类预测任务。

MISA

MISA框架的整体结构主要包括两个阶段：模态表征学习和模态融合。

下图为MISA框架的完整结构，首先对文本、视频、音频三种信息进行特征提取，然后学习不同模态不同子空间下的模态表征，最后对这些模态表征进行融合并使用transformer对融合的信息进行处理，以用于最终的分类任务。

数据中的每个视频被分割成一个个小视频(语料)作为模型的输入。对于一个语句(可以理解为一段视频的长度，它包含文本，音频，视频信息) $U$ ，输入包括语言 $(l)$ 、视觉 $(v)$ 、音频 $(a)$ 三个低层次的特征序列。三个序列分别表示为 $U_l \in R^{T_l\times d_l},U_v \in R^{T_v\times d_v}$ 和 $U_a \in R^{T_a\times d_a}$ ，这里 $T_m$ 表示话语的长度(由多少个语料组成)， $d_m$ 表示每个模态各自的特征维度。

我们的任务是利用这些序列 $U_m\in \{l,v,a\}$ 来预测该语句 $U$ 所表达的情感取向。

1、特征提取

对于每个模态 $m\in {l,v,a}$ ，首先将使用堆叠的双向长短时记忆(LSTM)提取语料序列 $U_m \in R^{T_m\times d_m}$ 的特征，然后后面在加上全连接的密集层，将其映射到固定大小的向量

$u_m \in R^{d_h}$ ，其计算公式为：
$u_m=sLSTM(U_m;\theta^{lstm}_m)\tag{1}$

公式中只体现了堆叠的双向长短时记忆，其后面应该有线性层才能得到最终的固定大小的特征向量 $u_m$ (对于每个模态，特征向量的长度是相同的)。

其中对于音频和视频模态只是用sLSTM进行特征提取；而对于文本模态，可以使用sLSTM也可以使用BERT，由上图可知是使用的BERT(虽然公式中把文本写成与视频和音频使用的是一样的了)。在代码中也是可以选择的，当然使用BERT的效果肯定要好了哇。