论文笔记 EMNLP 2021|Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for

125 篇文章 12 订阅

1 简介

论文题目:Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis
论文来源:EMNLP 2021
组织机构:新加坡科技设计大学
论文链接:https://arxiv.org/pdf/2109.00412.pdf
代码链接:https://github.com/declare-lab/Multimodal-Infomax

1.1 动机

  • 以前的方法进行特征融合可以分为两类:反向传播和特征空间的几何特性。这些方法缺乏控制从原始输入到融合嵌入的信息流,可能会丢失实际信息并引入每种模态携带的意外噪声。

1.2 创新

  • 提出了一种用于多模态情感分析的分级互信息最大化框架。 互信息最大化发生在输入级别和融合级别,以减少有价值的任务相关信息的丢失。

2 方法

在这里插入图片描述
模型的整体框架如上图,输入为三个模态的序列(文本、视频、语音),输出为表示情感强度值y。首先使用特征提取器(视频、语音)和tokenizer(文本)将原始输入处理为数字序列向量。然后包括特征融合和最大互信息两个部分。

2.1 模态编码

文本使用BERT编码,视频和语音使用两个双向LSTM编码,公式如下:
在这里插入图片描述

2.2 模态中互信息最大化

通过多模态输入之间加入互信息,过滤掉与任务无关的模态特定的随机噪声,并尽可能保持跨越所有模态的模态不变内容。
使用q(y|x)估计真实条件分布p(y|x),H(Y)为Y的熵,使用Gaussian Mixture Model进行计算。

互信息下限最大化的损失函数为:
在这里插入图片描述

2.3 融合中互信息最大化

为了在中间融合结果中捕获模态之间的模态不变信息,在融合结果和输入模态之间进行互信息最大化。

训练步骤分为两个阶段:1)通过最小化负对数 L l l d \mathcal{L}_{lld} Llld,使q(y|x) 近似 p(y|x)。2)将前面的互信息下限作为辅助损失添加到主要损失中,训练公式和过程如下:

3 实验

实验数据集为CMU-MOSI和CMU-MOSEI,数据统计如下表:
在这里插入图片描述

实验结果:
在这里插入图片描述

消融实验:
在这里插入图片描述
loss的变化:
在这里插入图片描述
Case study:
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hlee-top

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值