Modality to Modality Translation: An Adversarial Representation Learning and Graph Fusion Network for Multimodal Fusion
通过使用一个新型的对抗的编码解码分类框架用于学习模态不变的嵌入空间,来减少模态之间的差异。
- 文中用到了模态传译方面的知识,由模态传递所引发产生一个对抗的编码框架,也就是说,生成器从单一模态特征中生成一个较好的编码表示,而判别器则需要判别这个表示是否是目标模态所生成的。
- 同样,作者定义了一些解码器,这些解码器的作用是,重建出编码前的特征,用于减少和检测编码器和损失程度。
- 提出了一个层次化的概念,多模态如何是一个层次化的过程,先是两个模块之间的相互互动,然后是多模态的相互互动。也叫做图融合网络框架 (双模态之间的交互)
模型结构
编码空间学习
-
GAN 对抗训练 用于---- > 产生较好的编码空间
例如,当模型选择L为主模态时, 三个模态的特征都编码出三个encoder表示, Ea, El, Ev, 判别器需要把 El识别为true,而 Ea, Ev识别为false
-
引入reconstruct loss 使用decoder 用于 减少encoder 的损失
-
引入 classification loss 使得编码更具有区分性
这部分作者用对抗训练的方法来实现一个好的多模态表示
图网络融合框架
这是一个层次化的融合网络,它分为三个阶段
-
阶段一 单模态动态学习层
使用 MAN (Modality Attention Network )来对每个模态的编码空间学习层得到的向量进行 处理, 并且得到每个模态的重要性, 计算各个模态的加权
-
阶段二 双模态动态学习层
把两个模态的图顶点通过一个多层神经融合网络进行融合来得到一个双模态的图顶点,为了得到每条边的权重,我们首先计算了两个单模态向量间的相似性,作者假定模态之间的相似性越高,那么他们的权重则越低, 计算各个双模态的加权
-
阶段三 三模态动态学习层
与上一个阶段相同,将双模态的顶点进行融合,得到一个三模的顶点,除此之外,他还通过将双胞胎的顶点和上一层的单模态顶点进行融合,最终得到6个顶点状态。各个三模态的加权
把三个阶段得到的模态加权进行连接,融合的总特征。
总结
- 这篇文章讲了主要是两个方面,
- 第1个方面是每个模态都各自提取出各自的特征,如何将这些提取的特征映射到同一个嵌入空间。
- 第2个方面是作者通过图融合网络将这些嵌入空间后的特征进行模态融合,最终得到一个好的总特征。
- 在融合层面并不是说一次性就融合一个三模态,而是单模态的融合加双模态融合加三模态融合,这是一个较为创新的点,它虽然是分层次进行提取的,但是在最终的融合模块是将三个层次的特征进行了拼接。,但是这样可能信息会有一点重复,因为你的三模态就是通过单模态和双模态的特征进行提取。
总体来说,这篇文章使用GAN的思想, 对抗训练的方法,得到三个模态的较好的多模态表示,然后使用一个层次化的特征融合框架,进行多模态融合。作者使用了非常多常见的方法和思想,但是这些思想综合起来成为了一个非常有效果的框架。
一般来说对抗学习是用于做文本生成这样的一些东西,但是用于多模态的特征表示是比较有新意而且有效果的,值得学习。