1 简介
论文题目:Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis
论文来源:EMNLP 2021
组织机构:新加坡科技设计大学
论文链接:https://arxiv.org/pdf/2109.00412.pdf
代码链接:https://github.com/declare-lab/Multimodal-Infomax
1.1 动机
- 以前的方法进行特征融合可以分为两类:反向传播和特征空间的几何特性。这些方法缺乏控制从原始输入到融合嵌入的信息流,可能会丢失实际信息并引入每种模态携带的意外噪声。
1.2 创新
- 提出了一种用于多模态情感分析的分级互信息最大化框架。 互信息最大化发生在输入级别和融合级别,以减少有价值的任务相关信息的丢失。
2 方法
模型的整体框架如上图,输入为三个模态的序列(文本、视频、语音),输出为表示情感强度值y。首先使用特征提取器(视频、语音)和tokenizer(文本)将原始输入处理为数字序列向量。然后包括特征融合和最大互信息两个部分。
2.1 模态编码
文本使用BERT编码,视频和语音使用两个双向LSTM编码,公式如下:
2.2 模态中互信息最大化
通过多模态输入之间加入互信息,过滤掉与任务无关的模态特定的随机噪声,并尽可能保持跨越所有模态的模态不变内容。
使用q(y|x)估计真实条件分布p(y|x),H(Y)为Y的熵,使用Gaussian Mixture Model进行计算。
|
|
|
|
|
|
互信息下限最大化的损失函数为:
2.3 融合中互信息最大化
为了在中间融合结果中捕获模态之间的模态不变信息,在融合结果和输入模态之间进行互信息最大化。
|
|
|
训练步骤分为两个阶段:1)通过最小化负对数 L l l d \mathcal{L}_{lld} Llld,使q(y|x) 近似 p(y|x)。2)将前面的互信息下限作为辅助损失添加到主要损失中,训练公式和过程如下:
|
|
3 实验
实验数据集为CMU-MOSI和CMU-MOSEI,数据统计如下表:
实验结果:
消融实验:
loss的变化:
Case study: