多模态融合太香了!新成果及开源代码已扒!

2025深度学习发论文&模型涨点之——多模态融合

多模态融合,即综合运用多种模态数据(如文本、图像、音频、视频等)来实现更全面、更精准的信息感知与理解,它突破了单一模态数据在信息表达上的局限性,为复杂场景下的智能决策、人机交互以及跨领域应用提供了全新的思路与方法。从计算机视觉到自然语言处理,从医疗影像分析到智能驾驶,多模态融合技术正展现出其强大的生命力与广阔的应用前景。

我整理了一些多模态融合【论文+代码】合集,需要的同学公人人人号【AI创新工场】自取。

论文精选

论文1:

[TPAMI] MulFS-CAP: Multimodal Fusion-supervised Cross-modality Alignment Perception for Unregistered Infrared-visible Image Fusion

MulFS-CAP:用于未配准红外-可见光图像融合的多模态融合监督跨模态对齐感知

方法

单阶段融合框架:提出了一种单阶段融合框架MulFS-CAP,通过共享浅层特征编码器,将未配准的红外-可见光图像在单阶段内进行融合。

一致性特征学习:通过可学习模态字典补偿单模态特征,维持多模态特征间的一致性,减少模态差异对跨模态特征对齐的影响。

跨模态对齐感知:通过构建相关矩阵来描述源图像像素间的关系,进一步优化融合过程,实现无需显式配准的融合。

图片

创新点

性能提升:在RoadScene数据集上,与传统两阶段方法相比,MulFS-CAP在QPSNR指标上提升了约1.5 dB,QSSIM指标提升了约0.05,显著提高了融合图像的质量。

无需显式配准:通过跨模态对齐感知机制,实现了无需显式配准的融合,减少了两阶段方法中的复杂性。

轻量级模型:MulFS-CAP在参数数量和计算量上显著优于现有方法,同时在多个数据集上验证了其优越性。

图片

论文2:

[IJCAI] Multi-modal Circulant Fusion for Video-to-Language and Backward

多模态循环融合用于视频到语言及其反向任务

方法

多模态循环融合(MCF):提出了一种新的多模态融合方法,通过将特征向量重塑为循环矩阵,并定义向量与矩阵之间的两种交互操作,充分探索不同模态特征之间的交互。

卷积编码器和解码器:构建了卷积编码器用于提取视频特征,并设计了多阶段卷积解码器,结合MCF作为基础层,用于粗解码和精细化解码。

特征提取与增强:通过预训练的卷积网络提取视频帧特征,并通过帧间差分增强特征的判别能力。

图片

创新点

性能提升:在MSVD数据集上,与传统的元素相加、相乘和拼接方法相比,MCF在METEOR和CIDEr指标上分别提升了1.01和4.06个百分点。在MSRVTT数据集上,METEOR和CIDEr指标分别提升了0.7和2.9个百分点。

无需额外参数:MCF通过循环矩阵的结构实现了多模态特征的深度交互,而无需引入额外的参数或增加计算成本。

跨任务验证:在视频描述生成和通过语言查询进行时间活动定位(TALL)任务上均验证了该方法的有效性,TALL任务的性能提升了约4.2%。

图片

论文3:

[ICLR] Neural Machine Translation with Universal Visual Representation

具有通用视觉表征的神经机器翻译

方法

通用视觉表征(VR):提出了一种通用视觉表征方法,仅依赖单语语料库中的图像注释,通过主题-图像关联表检索与源句子主题相似的图像组,并利用预训练的ResNet编码为图像表征。

注意力融合:设计了一个带门控加权的注意力层,将视觉信息与文本信息融合,作为解码器的输入以预测目标翻译。

主题-图像关联表:通过TF-IDF算法从多模态数据集中提取主题-图像关联表,用于检索与源句子主题相关的图像。

图片

创新点

突破双语依赖:首次提出通用视觉表征方法,突破了多模态机器翻译(MMT)中对双语(或多语)平行数据手动图像注释的依赖,显著降低了数据准备的难度。

性能提升:在WMT’16英-罗翻译任务中,与基线Transformer(base)相比,BLEU分数从32.66提升到33.78(+1.12),在WMT’14英-德翻译任务中,BLEU分数从27.31提升到28.14(+0.83)。

轻量级实现:该方法仅引入了1.5M的额外参数(占基线参数的不到3%),训练时间与基线模型基本相同,具有较高的效率。

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值