多模态融合新思路！36篇最新顶会论文汇总（含ICLR2024原文和代码）

最新推荐文章于 2025-04-12 13:15:11 发布

原创最新推荐文章于 2025-04-12 13:15:11 发布

· 1.1w 阅读

72 ·

版权

文章标签：

#计算机视觉 #人工智能 #深度学习 #大模型教程 #大模型学习 #大模型 #大模型入门

ICLR2024引领**「多模态领域」**的最新潮流，这些研究方法涵盖了多模态学习中不同方向的内容，并探索了传统与新型框架相结合的领域。

为了让大家能够一览最前沿创新思路，获得灵感启发，今天给大家分享**「36篇必读顶会的原文和源码」**。其中包含ICLR2024最新多模态融合的方法，比如采用渐进融合策略或者正交顺序融合方法。

同时，还包含传统经典融合方法，包括同一特征空间融合、分别编码后再融合以及图像编码前的信息整合等策略。这些方法有望在多模态信息处理领域取得更好性能表现。

ICLR2024最新多模态融合

1.代表论文：Progressive Fusion for Multimodal Integration

「简述」：来自各种来源的多模式信息的集成已被证明可以提高机器学习模型的性能。该文提出了一种称为渐进融合的迭代表示细化方法，这是一种模型无关技术，通过向后连接使早期层可以使用后期融合表示，提高了表示的表达能力。渐进融合避免了使用后期融合时出现的信息丢失，同时保留了后期融合设计的优势。

2.代表论文：Orthogonal Sequential Fusion in Multimodal Learning

「简述」：多种模态的数据集成是机器学习的一个挑战，包括从图像字幕到文本到图像生成的应用。该文介绍了一种新的融合范式，称为正交序列融合OSF，它顺序合并输入并允许对模态进行选择性加权。这种逐步过程还能够促进正交表示，从而提取每个附加模态的互补信息。

3.代表论文：Balanced Multimodal Learning: An Integrated Framework for Multi-Task Learning in Audio-Visual Fusion

「简述」：该文引入了一个多模式学习框架BalanceMLA，旨在动态平衡和优化每种模式。该框架可以独立地调整每个模态的目标，并自适应地控制它们的优化。此外，该文提出了一种双边残差特征融合和自适应加权决策融合策略来动态管理这些不平衡，引入了一种动态生成的类级加权方案，以满足细粒度任务的需要。

传统经典融合方法

1.提取特征后并转换到同一特征空间后进行特征融合

代表论文：DeepFusion:Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

「简述」：激光雷达和摄像头是为自动驾驶中的3D检测提供补充信息的关键传感器。但研究表明，将相机特征与深度激光雷达特征而不是原始点融合可以带来更好的性能。该文提出了两种新技术：InverseAug，它反转几何相关的增强，例如旋转，以实现激光雷达点和图像像素之间的精确几何对准；以及LearnableAlign，它利用交叉注意力在融合过程中动态捕捉图像和激光雷达特征之间的相关性。

2.在encoding过程中逐步融合

代表论文：DBCNet: Dynamic Bilateral Cross-Fusion Network for RGB-T Urban Scene Understanding in Intelligent Vehicles

「简述」：该文通过引入动态双边交叉融合网络（DBCNet）来理解RGB-T城市场景，从而利用RGB和热（RGB-T）图像中的多模式信息。首先，由给定主干提取的RGB-T特征被重新组合为高级或低级特征。其次，将多模式高级特征发送到动态双边交叉融合模块进行进一步细化。第三，增加了一个有界的高级语义特征集成模块来提供特征指导，并使用多任务监督机制进行微调。

3.分别进行encoding特征提取后，融合特征图

代表论文：CEKD:Cross Ensemble Knowledge Distillation for Augmented Fine-grained Data

「简述」：现有的数据增强方法通过混合图像对并根据混合像素的统计信息融合相应的标签来解决模糊问题，这会产生对网络性能有害的额外噪声。该文提出了一个简单而有效的跨集成知识提取（CEKD）模型，用于细粒度特征学习，以及一个交叉蒸馏模块，以提供额外的监督来缓解噪声问题，并提出了一种协作集成模块来克服目标冲突问题。

4.在图像编码前融合

代表论文：Rethinking multi-exposure image fusion with extreme and diverse exposure levels: A robust framework based on Fourier transform and contrastive learning

「简述」：多曝光图像融合（MEF）是生成高动态范围图像的重要技术。该文提出了一个基于傅立叶变换和对比学习的鲁棒MEF框架。具体来说，该文开发了一种基于傅立叶变换的像素强度转移策略，从正常曝光的自然图像中合成具有不同曝光水平的图像，并训练编码器-解码器网络来重建原始自然图像。通过这种方式，编码器和解码器可以学习从具有不同曝光水平的图像中提取特征，并生成具有正常曝光的融合图像。

5.根据不同模态生成对应的策略，进行策略融合

代表论文：Multi-modal policy fusion for end-to-end autonomous driving

「简述」：自动驾驶中对于实际驾驶任务3D场景是关键。该文证明了基于现有传感器融合方法的模仿学习策略在存在高密度动态代理和复杂场景的情况下执行不足，这些场景需要全局上下文推理，例如在不受控制的十字路口处理来自多个方向的交通。因此，该文提出了TransFuser，一种新型的多模融合转换器，用于使用注意力集成图像和激光雷达表示。

6.分别编码两种模态，并依据结果进行对比学习

代表论文：Multi-modal contrastive mutual learning and pseudo-label re-learning for semi-supervised medical image segmentation

「简述」：半监督学习在具有少量标记数据的医学图像分割任务中具有很大的潜力，但大多数只考虑单模态数据。多模态数据的优异特性可以提高每种图像模态的半监督分割性能。
该文提出了一种半监督对比互学习（semi-CML）分割框架，其中一种新的区域相似性对比（ASC）损失利用不同模态之间的跨模态信息和预测一致性来进行对比互学习。