《Adaptive Fusion Techniques for Multimodal Data》论文学习

最新推荐文章于 2025-03-13 07:48:42 发布

waiall

最新推荐文章于 2025-03-13 07:48:42 发布

阅读量1.7k

点赞数 1

分类专栏： java 文章标签：机器学习深度学习人工智能网络

本文链接：https://blog.csdn.net/uestc_huhu/article/details/115706541

版权

java 专栏收录该内容

28 篇文章

订阅专栏

本文提出两种创新的自适应融合方法：Auto-Fusion通过学习压缩信息保持上下文，而GAN-Fusion通过对抗训练优化多模态动力学。实验表明，这些轻量级网络在翻译和情感识别等任务中优于大规模Transformer模型，有效建模上下文并减少计算成本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract
在本文当中，我们提出了一种自适应的融合技术，旨在从不同的模式有效地建模上下文，本文没有为网络定义一个确定性的融合操作，例如连接，而是让网络决定“如何”更有效地组合一组给定的多模态特征。我们提出了两种网络:1)自动融合，它学习压缩来自不同模式的信息，同时保留上下文;2)GAN融合，它从互补的模式中规则化给定上下文的学习潜在空间。对多模态机器翻译和情感识别任务的定量评估表明，与现有方法相比，我们轻量级的自适应网络可以更好地从其他模式建模上下文，其中许多方法采用了大规模的基于transformer的网络。
introduction
自然，更好的融合方法将有助于多模态系统更好地学习，最终提高其对给定任务的性能。
主要contributions
1.我们提出了两种轻量级的、自适应的数据融合技术:自动融合和gan融合。
2.我们提出了一个多任务框架，用于多模态网络的端到端训练(用于分类和生成)。
Proposed methods
我们的融合方法包括连接的单峰嵌入作为一个初始步骤。为了避免与以往的工作产生冲突，我们将只考虑拼接后的步骤作为我们融合方法的一部分，因为我们不使用拼接后的向量作为最终预测;这只是一个初步的步骤。因此，为了缓解现有融合方法的“静态”性，我们提出了两种自适应但简单的融合技术，即自动融合和gan融合。他们的目标是有效地结合多模态输入和减轻问题的浅层和计算开销显示了先前的融合技术。
3.1 Auto-Fusion
在这里插入图片描述

在这里插入图片描述

For Auto-Fusion, we consider the intermediatevector, ztm, as the fused multimodal representation.
3.2 GAN-Fusion
我们提出了一个对抗激励学习期望的有条件分配的培训制度。对于一项任务，如情绪识别，目标将是一个言论的情感。对于更有挑战性的生成任务，该模型可以学习更复杂的行为，比如根据不同句子的发音相似度和极性来将它们联系起来。我们的实验表明，与其他方法相比，基于gan的方法能够更好地学习这种多模态动力学。
在这里插入图片描述 GAN-Fusion module

生成任务(如视觉问题回答，多模态机器翻译)和分类任务(如语音情感识别，仇恨语音检测)。
ztr=zfuse
都是有监督的训练，为了更好地生成多模态的信息？？更好地组合多模态的信息特征！！！