读《Modality to Modality Translation: An Adversarial Representation Learning and Graph Fusion Network》

最新推荐文章于 2023-02-12 23:34:39 发布

Mighty_Crane

最新推荐文章于 2023-02-12 23:34:39 发布

阅读量562

点赞数

分类专栏：小白论文图融合文章标签：神经网络深度学习人工智能

小白同时被 3 个专栏收录

71 篇文章 2 订阅

订阅专栏

论文

69 篇文章 0 订阅

订阅专栏

图融合

14 篇文章 3 订阅

订阅专栏

摘要

主流的模态融合方法未能实现学习多模态的嵌入空间这一目标

本文提出了一种新的对抗性编码器-解码器分类器框架
由于不同模态的分布在本质上有所不同，为了减少模态差距，使用对抗性训练通过各自的编码器将源模态的分布转换为目标模态的分布。
此外，通过引入重构损失和分类损失来对嵌入空间施加额外的约束。然后利用层次图神经网络融合编码表示（是把图融合成编码向量，还是融合成图后再进一步得到编码），明确地探索了多阶段的单峰、双峰和三峰相互作用

引言

(Baltrusaitis, Ahuja, ˇand Morency 2019)可以证明多模态就是比单模态好
多模态融合的一个关键问题在于来自不同模式的异构数据分布 (Baltrusaitis, Ahuja, and Morency 2019)，导致了跨模式挖掘互补信息的困难，这对多模态信息的全面解释至关重要。
以往的大部分工作都没有致力于学习各种模态的联合嵌入空间来匹配多模态分布。相反，他们将每个模态应用到一个子网络，然后立即进行融合 (Zadeh et al. 2017;Poria et al. 2017b; Liu et al. 2018)（还是决策层融合呗？）。

生成对抗网络(GANs)可以使用对抗性训练明确地将一个分布映射到另一个先验分布(Makhzani et al. 2016)。
在此基础上，提出了一个对抗性编码器框架来匹配所有模态的变换分布，并学习一个模态不变的嵌入空间。
为每个模态定义一个解码器，重建原始特征，以防止单峰信息丢失。此外，还建立一个分类器，将编码的表示分类为真类别，确保了嵌入空间对学习任务具有鉴别性。

此外，许多先前的方法不能以分层hierarchical的方式进行融合，也不能明确地建模多个模式的每个子集之间的相互作用(Poria et al. 2017b; Liu et al. 2018; Zadeh et al. 2018b)。
于是本文将多模态融合解释为一个层次交互学习过程，首先基于单模态相互作用dynamics生成双模态交互，然后基于双模态和单模态相互作用生成三模态相互作用。
以图融合网络作为这个层次融合网络，这样在融合过程中是高度可解释的。
这个图融合网络由三层组成，分别包含单峰、双峰和三峰相互作用。底层的顶点将其信息传递到高层，在那里信息被融合，形成高层的多模态信息。通过这种方法，可以在分层探索跨模式交互的同时，仍然保持原始交互。

方法

ARGF由两个阶段组成：联合嵌入空间学习阶段和图融合阶段。在第一阶段，通过对抗性框架学习所有模式的嵌入空间。
在第二阶段，利用编码器输出的表示来进行图融合

联合嵌入空间学习

三种模态作为输入：声音xa，语义xl，视觉xv
假设xl是目标模态，其他模态被称为源模态，p(xl)表示语言模态的先验数据分布，则有变换分布
在这里插入图片描述
其中q就是编码器，一个深度神经网络，计算结果p是学习嵌入空间中的转换分布

通过优化θl、θv和θa，可以显式地将转换后的分布pθa(xea)和pθv(xev)映射到pθl(xel)。然而，不同模式的分布是非常复杂的，它们的性质也很不同，很难用简单的编码器网络来匹配的。
因此利用对抗性训练来为转换后的分布添加约束条件。定义一个鉴别器D，旨在将pθl(xel)归类为真，而pθa(xea)和pθv(xev)分类为假，而生成器(编码器Ea和Ev)试图欺骗鉴别器D，将pθv(xev)和pθa(xea)归类为真。生成器和鉴别器作为一个最小的相互竞争来学习联合嵌入空间。这里的损失函数可分为两部分：假对抗损失£fal和真对抗损失£tal，
在这里插入图片描述
解码器通过重构损失学习

最后分类器通过分类损失学习

总结为

图融合网络

我们在本节中融合所有模态的编码表示来探索跨模态交互。假设多模态融合是处于多阶段的，考虑到保留所有n模态交互的需要，引入了层次神经网络图融合网络(GFN)，依次对单峰、双峰和三峰交互进行建模。
GFN将每个交互视为一个顶点，并将相互作用顶点之间的相似性以及相互作用顶点的重要性视为边的权重，这在融合结构方面具有高度的可解释性和灵活性。（虽然不是纯粹的对象节点好歹能学一下图融合方法，但这异构图有点难顶）
在这里插入图片描述
第一层应用一个模态注意网络来处理每个顶点，并确定这些单模态交互的重要性，因为并不是所有的模态的贡献都是相等的。然后通过计算所有单峰顶点信息的加权平均值，得到最终的单峰交互。首先利用内积估计了第一层的每两个统一的单峰信息向量的相似性。可以认为两个信息向量越相似，它们的双峰相互作用就越不重要。

在第二层，即双峰动态学习层，使用MLP融合每个两个单峰顶点，得到每个双峰顶点：

Mighty_Crane

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
读《Modality to Modality Translation: An Adversarial Representation Learning and Graph Fusion Network》

摘要主流的模态融合方法未能实现学习多模态的嵌入空间这一目标本文提出了一种新的对抗性编码器-解码器分类器框架由于不同模态的分布在本质上有所不同，为了减少模态差距，使用对抗性训练通过各自的编码器将源模态的分布转换为目标模态的分布。此外，通过引入重构损失和分类损失来对嵌入空间施加额外的约束。然后利用层次图神经网络融合编码表示（是把图融合成编码向量，还是融合成图后再进一步得到编码），明确地探索了多阶段的单峰、双峰和三峰相互作用引言(Baltrusaitis, Ahuja, ˇand Morency 2
复制链接

扫一扫