多模态融合,一个2025年仍然处于爆发期的热门方向,还在持续吸引学术界与工业界的投入。作为顶会顶刊常客,它也依然是当前最好发论文的方向之一。
目前,这方向主流的创新思路主要有两大类:改进类创新和结合类创新。改进类创新如可解释多模态融合,核心目标在于实现性能提升。而结合类指的是多模态与其他技术协同,这方面根据结合的具体技术、目标和实现方式,可进一步区分为3个层次(任务、方法、模型)。
改进类
较热门的有可解释多模态融合,在传统多模态融合的基础上,引入可解释性作为优化目标,提升模型的透明度和决策过程的可理解性。
Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation
方法:论文提出了一种基于可解释AI的多模态融合方法,通过ResNet50提取视频帧的视觉特征,并结合GPT-2生成自然语言描述。该方法利用多头注意力机制对齐视觉和文本信息,生成高质量、语义相关的描述,增强了视频内容理解的可解释性。
创新点:
- 提出了一种结合ResNet50和GPT-2的新型架构,有效整合视觉特征和文本生成。
- 使用多头自注意力和交叉注意力对齐视觉与文本模态,提升描述的语义相关性和上下文一致性。
- 采用梯度累积和混合精度训练,提高计算效率并保持输出质量。
结合类
方法优化型
比如多模态融合+迁移学习,利用迁移学习解决数据或领域适配问题,提升多模态融合的效率。
MM-GTUNets: Unified multi-modal graph deep learning for brain disorders prediction
方法:论文提出MM-GTUNets框架,用迁移学习的VAE对齐成像和非成像数据,再通过图变换器和图U-Net提取特征并融合,实现多模态数据的高效利用,提升脑部疾病预测性能。
创新点:
- 提出MRRL,通过AMRS动态构建人口图,精准分析非成像数据的贡献权重。
- 引入ACMGL,结合GTUNet编码器,有效提取模态特定和模态共享特征。
- 可视化各模态贡献权重,为医学决策提供可解释支持。
任务驱动型
典型如多模态融合+目标检测,将多模态数据(如图像、雷达、语音等)融合,用于提升目标检测任务的性能。
RGB-T Object Detection via Group Shuffled Multi-receptive Attention and Multi-modal Supervision
方法:论文提出了一种名为SAMS-YOLO的多模态目标检测方法,通过GSMA模块融合RGB和热红外特征,并采用多模态监督策略,在保持高效率的同时显著提高了多模态目标检测的准确性。
创新点:
- 提出GSMA模块,高效融合RGB-T多尺度特征。
- 引入多模态监督策略,分别用独立注释监督RGB、热红外和融合分支。
- 在YOLOv5框架中集成GSMA和MS,提升小目标、夜间及遮挡场景的检测能力。
模型架构型
结合特定模型(如热点Mamba)的能力(如高效建模、时序建模),优化多模态数据处理流程或性能。
M3amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification
方法:论文提出M3amba模型,用CLIP提取语义信息,结合Mamba高效融合多模态数据,通过特定适配器和Cross-SS2D模块增强特征交互,实现线性复杂度下的深度特征融合,提升遥感图像分类性能和效率。
创新点:
- 提出M3amba模型,首次将CLIP的语义提取能力和Mamba的高效计算性能结合用于多模态融合。
- 引入CLIP驱动的模态特定适配器,为不同模态数据提供语义理解,增强特征融合效果。
- 设计Cross-SS2D模块,通过交叉注意力机制高效融合多模态特征,保持线性复杂度。