传统的多模态融合方法面临着模态表示不一致、灵活性不足等问题,难以适应日益复杂的实际需求。
而随着大模型等新技术的发展,研究者将这些新技术与传统的多模态融合相结合,提出了新阶段的融合模式,包括多模态大模型时代的新架构、动态多模态融合等。这些新的融合模式和方法不仅提高了模型的性能,也为处理更复杂的现实问题提供了新的思路,是我们做创新发论文的好方向。
本文介绍6种传统模态融合方法,重点介绍2种热门的新阶段融合模式(多模态新架构+动态多模态融合),每种方法都附有代表论文以及相应代码(共28篇),方便同学们学习。
论文和代码需要的同学看文末
1.传统模态融合方法
①在将特征提取并转换到同一特征空间后,利用cross-attention等机制进行特征融合
-
代表论文:DeepFusion:Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection
②在编码过程中逐步进行特征融合
-
代表论文:CEKD:Cross-Modal Edge-Privileged Knowledge Distillation for Semantic Scene Understanding Using Only Thermal Images
③分别对不同模态的特征进行编码提取,然后融合特征图
-
代表论文:Multi-exposure image fusion via deep perceptual