《Adaptive Fusion Techniques for Multimodal Data》论文学习

Abstract
在本文当中,我们提出了一种自适应的融合技术,旨在从不同的模式有效地建模上下文,本文没有为网络定义一个确定性的融合操作,例如连接,而是让网络决定“如何”更有效地组合一组给定的多模态特征。我们提出了两种网络:1)自动融合,它学习压缩来自不同模式的信息,同时保留上下文;2)GAN融合,它从互补的模式中规则化给定上下文的学习潜在空间。对多模态机器翻译和情感识别任务的定量评估表明,与现有方法相比,我们轻量级的自适应网络可以更好地从其他模式建模上下文,其中许多方法采用了大规模的基于transformer的网络。
introduction
自然,更好的融合方法将有助于多模态系统更好地学习,最终提高其对给定任务的性能。
主要contributions
1.我们提出了两种轻量级的、自适应的数据融合技术:自动融合和gan融合。
2.我们提出了一个多任务框架,用于多模态网络的端到端训练(用于分类和生成)。
Proposed methods
我们的融合方法包括连接的单峰嵌入作为一个初始步骤。为了避免与以往的工作产生冲突,我们将只考虑拼接后的步骤作为我们融合方法的一部分,因为我们不使用拼接后的向量作为最终预测;这只是一个初步的步骤。因此,为了缓解现有融合方法的“静态”性,我们提出了两种自适应但简单的融合技术,即自动融合和gan融合。他们的目标是有效地结合多模态输入和减轻问题的浅层和计算开销显示了先前的融合技术。
3.1 Auto-Fusion
在这里插入图片描述

在这里插入图片描述

For Auto-Fusion, we consider the intermediatevector, ztm, as the fused multimodal representation.
3.2 GAN-Fusion
我们提出了一个对抗激励学习期望的有条件分配的培训制度。对于一项任务,如情绪识别,目标将是一个言论的情感。对于更有挑战性的生成任务,该模型可以学习更复杂的行为,比如根据不同句子的发音相似度和极性来将它们联系起来。我们的实验表明,与其他方法相比,基于gan的方法能够更好地学习这种多模态动力学。
在这里插入图片描述 GAN-Fusion module
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
生成任务(如视觉问题回答,多模态机器翻译)和分类任务(如语音情感识别,仇恨语音检测)。
ztr=zfuse
都是有监督的训练,为了更好地生成多模态的信息??更好地组合多模态的信息特征!!!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值