在计算机视觉(CV)领域,多模态融合的研究正迅速成为一个重要而充满活力的子领域,多模态融合技术旨在结合来自不同传感器、视角或模态的信息,以实现比单一模态更加准确和鲁棒的视觉理解。
近年来,随着深度学习技术的突破,多模态融合方法在各种视觉任务中展现了显著的性能提升,今天就整理了一些CV方向多模态融合优质paper分享给大家!
1、DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion
DDFM:用于多模态图像融合的去噪扩散模型
简述:本文提出了一种新的图像融合算法,该算法基于去噪扩散概率模型(DDPM)。这个算法把图像融合看作是一个有条件的生成过程,并通过期望最大化(EM)算法解决,无需对预训练的生成模型进行微调。结果表明,该方法在红外与可见光图像融合以及医学图像融合方面表现出色。
2、CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion
CDDFuse:用于多模态图像融合的相关驱动的双分支特征分解
简述:为了有效地融合和处理不同模态图像的特征,本文提出了一种新型的基于相关性驱动的特征分解融合网络CDDFuse,它结合了Restormer块、轻量级Transformer块和可逆神经网络块以融合不同模态图像特征,并通过一个创新的损失函数增强特征相关性。实验表明,CDDFuse在红外-可见光图像融合、医学图像融合等任务上表现出色,并能提高语义分割和目标检测的性能。
3、SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection
SkipcrossNets:用于道路检测的自适应跳过交叉融合
简述:本文提出了跳跃交叉网络SkipcrossNets,一种灵活融合激光雷达点云与摄像机图像的架构,它通过层与层之间的前馈连接,实现了特征的增强传播和融合,有助于选择两个数据流中最匹配的特征层,并简化了网络复杂性。SkipcrossNets在KITTI和A2D2数据集上取得了优异成绩,且模型大小和运行速度适合移动或嵌入式设备。