15篇CV方向多模态融合优质paper汇总！

最新推荐文章于 2024-08-31 02:51:31 发布

AI热心分享家

最新推荐文章于 2024-08-31 02:51:31 发布

阅读量1.3k

点赞数 19

文章标签：语言模型人工智能自然语言处理机器学习深度学习

本文链接：https://blog.csdn.net/2401_82426425/article/details/135604106

版权

本文汇总了15篇关于计算机视觉（CV）领域多模态融合的优质研究论文，涵盖了图像融合、目标检测、语义映射、异常检测等多个方面。这些方法利用深度学习技术，如Transformer和Diffusion模型，提升了多模态信息融合的准确性和鲁棒性，推动了视觉理解的边界。具体包括DDFM、CDDFuse、SkipcrossNets、FusionFormer等创新模型，展示了在红外与可见光图像、医学图像、自动驾驶和手语识别等领域的应用成效。

摘要由CSDN通过智能技术生成

在计算机视觉（CV）领域，多模态融合的研究正迅速成为一个重要而充满活力的子领域，多模态融合技术旨在结合来自不同传感器、视角或模态的信息，以实现比单一模态更加准确和鲁棒的视觉理解。

近年来，随着深度学习技术的突破，多模态融合方法在各种视觉任务中展现了显著的性能提升，今天就整理了一些CV方向多模态融合优质paper分享给大家！

1、DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion

DDFM：用于多模态图像融合的去噪扩散模型

简述：本文提出了一种新的图像融合算法，该算法基于去噪扩散概率模型（DDPM）。这个算法把图像融合看作是一个有条件的生成过程，并通过期望最大化（EM）算法解决，无需对预训练的生成模型进行微调。结果表明，该方法在红外与可见光图像融合以及医学图像融合方面表现出色。

2、CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion

CDDFuse：用于多模态图像融合的相关驱动的双分支特征分解

简述：为了有效地融合和处理不同模态图像的特征，本文提出了一种新型的基于相关性驱动的特征分解融合网络CDDFuse，它结合了Restormer块、轻量级Transformer块和可逆神经网络块以融合不同模态图像特征，并通过一个创新的损失函数增强特征相关性。实验表明，CDDFuse在红外-可见光图像融合、医学图像融合等任务上表现出色，并能提高语义分割和目标检测的性能。

3、SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection

SkipcrossNets：用于道路检测的自适应跳过交叉融合

简述：本文提出了跳跃交叉网络SkipcrossNets，一种灵活融合激光雷达点云与摄像机图像的架构，它通过层与层之间的前馈连接，实现了特征的增强传播和融合，有助于选择两个数据流中最匹配的特征层，并简化了网络复杂性。SkipcrossNets在KITTI和A2D2数据集上取得了优异成绩，且模型大小和运行速度适合移动或嵌入式设备。