Modality to Modality Translation:An Adversarial Representation Learning and Graph Fusion Network

题目:Modality to Modality Translation:An Adversarial Representation Learning and Graph Fusion Network for Multimodal Fusion

本文的主要方法是用到了GAN(对抗生成网络)以及图的融合两种方法,分为两个阶段,以融合做回划分,在融合之前,使用GAN学习representation,得到较好的表示之后,第二个阶段就是对于多个模态进行融合。

Abstract

  • 学习不同模态的联合嵌入空间对于多模态融合有着重要意义,现存的主流融合方法忽略了这个方面,造成了modality gap的问题
  • 本文提出了新颖的对抗编码解码器来学习模态无关的嵌入空间,由于不同模态的分布(distribution)可能是不一样的,所以使用对抗训练的方法,根据编码器将源模态的分布转为目标模态的分布。不仅如此,还引入了重构损失以及分类损失对嵌入空间施加约束
  • 当学习到表示之后,就是对于表示进行融合。本文使用了分层的图神经网络以多阶段的方法对于单模态,双模态和三模态的交互进行建模
  • 通过实验对比在多个数据集上获得了SOTA效果,并且可视化验证了学习到的联合嵌入空间是discriminative的

Introduction

  • 多模态融合一个关键问题是不同模态之间的异构数据(heterogeneous data)的异构性,使得模型很难去挖掘不同模态之间的互补信息
  • 之前的工作主要聚焦于使用神经网络对每个模态建模,之后再将模态学习到的表示进行融合,而这样的方法仍然存在模态分布的问题并且没有考虑到联合嵌入空间(joint embedding space)。
  • 本文使用了GAN,将利用编码器将源模态分布转换成目标模态的分布,期间使用了对抗生成网络保证两个分布相似,generator以及discriminator。并且还使用了解码器对于原来的特征进行重构避免每个单模态信息泄露,以及使用一个分类器对于编码后的表示进行分类。
  • 得到进行编码后的表示,这个时候就需要对于这些表示进行融合。本文使用了图神经网络进行分层(hierarchical)的融合,首先使用单模态来构建双模态交互,之后利用得到的双模态表示来构建三模态的交互。因此这个网络有三层,最顶层的表示也完成了模态的融合

Model
在这里插入图片描述
模型主要分为两个阶段,第一个阶段是联合嵌入空间的学习,第二阶段是将编码器编码的表示输入到一个图融合网络中进行特征的融合。

Joint Embedding Space Learning

  • 将源模态的分布转换为目标模态的分布以此可以得到一个模态无关的嵌入空间
  • 为了达到上面的目标,本文使用对抗生成网络,并且利用了重构损失以及分类损失优化所学习到的嵌入空间

首先,transformed distributions of these three modalities的公式。在这里假设文本为目标模态。
在这里插入图片描述
其中p是数据原本的分布,q是编码函数,左边的p就是转换好的分布。x则是编码过后的表示。我们希望优化三个模态的 θ \theta θ,将视频和音频的模态分布转换成文本的模态分布。
但是仅仅通过简单encoder-decoder的方式无法直接进行转换,在这里就需要使用到了对抗生成网络(GAN)
在这里插入图片描述
Discriminator以及generator两者的机制,具体的损失函数如下
在这里插入图片描述
当discriminator不能够区别输入的数据分布到底是源数据分布还是目标数据分布的时候,说明这个时候已经形成了模态无关的嵌入空间了。通过对抗训练,可以有效地缩小模态差距,从而可以直接融合来自各种模态的表示。

通过模态分布的转换,可能会导致每一个单独模态内部信息的缺失,为了保留模态特定信息,将decoder表示如下
在这里插入图片描述
这样做的目的是为了使得解码后的表示近似于原来的表示,最小化信息的损失
在这里插入图片描述
不仅如此,为了让学习到的嵌入空间相对于任务具有辨别性(discriminative),还定义了分类任务
在这里插入图片描述
总体的损失为
在这里插入图片描述

Graph Fusion Network

在这里插入图片描述
带着两个问题继续探索:节点是如何表示的,边是如何构建的?
关键词:MAN(模态注意力网络),三层并且在每一层最后都有一个代表这整层的最终单模态向量。
第一层
在这里插入图片描述

第二层
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
节点的attention
在这里插入图片描述
在这里插入图片描述
最终输出与预测
在这里插入图片描述

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
跨模态融合变压器用于多光谱目标检测是一种先进的目标检测方法。多光谱图像由不同波段的传感器捕获,每个波段提供了目标的不同特征信息。传统的目标检测算法往往局限于单一光谱波段,无法在多光谱图像中有效提取目标信息。而跨模态融合变压器能够将不同波段的光谱信息融合,并在融合后的特征上进行目标检测,从而提高目标检测的准确性和鲁棒性。 跨模态融合变压器结合了Transformer模型和跨模态融合方法。Transformer模型是一种基于自注意力机制的神经网络架构,能够有效地建模长距离依赖关系。它将目标的特征信息转化为一系列的注意力权重,然后利用这些权重来对不同波段的特征进行加权融合。这种融合方式可以将信息从一个波段传递到另一个波段,使得各个波段的特征能够共同影响目标检测结果。 跨模态融合变压器还引入了多尺度的注意力机制,以适应不同尺度目标的检测需求。它通过在特征提取的过程中引入多个不同大小的注意力窗口,来对不同尺度的目标进行建模。通过这种方式,跨模态融合变压器能够在多光谱图像中准确地检测到各种尺度的目标。 总之,跨模态融合变压器是一种能够融合不同波段特征并进行多光谱目标检测的先进方法。它的引入可以提高目标检测的准确性和鲁棒性,适用于各种需要从多光谱图像中提取目标信息的应用场景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值