题目:Modality to Modality Translation:An Adversarial Representation Learning and Graph Fusion Network for Multimodal Fusion
本文的主要方法是用到了GAN(对抗生成网络)以及图的融合两种方法,分为两个阶段,以融合做回划分,在融合之前,使用GAN学习representation,得到较好的表示之后,第二个阶段就是对于多个模态进行融合。
Abstract
- 学习不同模态的联合嵌入空间对于多模态融合有着重要意义,现存的主流融合方法忽略了这个方面,造成了modality gap的问题
- 本文提出了新颖的对抗编码解码器来学习模态无关的嵌入空间,由于不同模态的分布(distribution)可能是不一样的,所以使用对抗训练的方法,根据编码器将源模态的分布转为目标模态的分布。不仅如此,还引入了重构损失以及分类损失对嵌入空间施加约束
- 当学习到表示之后,就是对于表示进行融合。本文使用了分层的图神经网络以多阶段的方法对于单模态,双模态和三模态的交互进行建模
- 通过实验对比在多个数据集上获得了SOTA效果,并且可视化验证了学习到的联合嵌入空间是discriminative的
Introduction
- 多模态融合一个关键问题是不同模态之间的异构数据(heterogeneous data)的异构性,使得模型很难去挖掘不同模态之间的互补信息
- 之前的工作主要聚焦于使用神经网络对每个模态建模,之后再将模态学习到的表示进行融合,而这样的方法仍然存在模态分布的问题并且没有考虑到联合嵌入空间(joint embedding space)。
- 本文使用了GAN,将利用编码器将源模态分布转换成目标模态的分布,期间使用了对抗生成网络保证两个分布相似,generator以及discriminator。并且还使用了解码器对于原来的特征进行重构避免每个单模态信息泄露,以及使用一个分类器对于编码后的表示进行分类。
- 得到进行编码后的表示,这个时候就需要对于这些表示进行融合。本文使用了图神经网络进行分层(hierarchical)的融合,首先使用单模态来构建双模态交互,之后利用得到的双模态表示来构建三模态的交互。因此这个网络有三层,最顶层的表示也完成了模态的融合
Model
模型主要分为两个阶段,第一个阶段是联合嵌入空间的学习,第二阶段是将编码器编码的表示输入到一个图融合网络中进行特征的融合。
Joint Embedding Space Learning
- 将源模态的分布转换为目标模态的分布以此可以得到一个模态无关的嵌入空间
- 为了达到上面的目标,本文使用对抗生成网络,并且利用了重构损失以及分类损失优化所学习到的嵌入空间
首先,transformed distributions of these three modalities的公式。在这里假设文本为目标模态。
其中p是数据原本的分布,q是编码函数,左边的p就是转换好的分布。x则是编码过后的表示。我们希望优化三个模态的
θ
\theta
θ,将视频和音频的模态分布转换成文本的模态分布。
但是仅仅通过简单encoder-decoder的方式无法直接进行转换,在这里就需要使用到了对抗生成网络(GAN)
Discriminator以及generator两者的机制,具体的损失函数如下
当discriminator不能够区别输入的数据分布到底是源数据分布还是目标数据分布的时候,说明这个时候已经形成了模态无关的嵌入空间了。通过对抗训练,可以有效地缩小模态差距,从而可以直接融合来自各种模态的表示。
通过模态分布的转换,可能会导致每一个单独模态内部信息的缺失,为了保留模态特定信息,将decoder表示如下
这样做的目的是为了使得解码后的表示近似于原来的表示,最小化信息的损失
不仅如此,为了让学习到的嵌入空间相对于任务具有辨别性(discriminative),还定义了分类任务
总体的损失为
Graph Fusion Network
带着两个问题继续探索:节点是如何表示的,边是如何构建的?
关键词:MAN(模态注意力网络),三层并且在每一层最后都有一个代表这整层的最终单模态向量。
第一层
第二层
节点的attention
最终输出与预测