ICLR2024引领**「多模态领域」**的最新潮流,这些研究方法涵盖了多模态学习中不同方向的内容,并探索了传统与新型框架相结合的领域。
为了让大家能够一览最前沿创新思路,获得灵感启发,今天给大家分享**「36篇必读顶会的原文和源码」**。其中包含ICLR2024最新多模态融合的方法,比如采用渐进融合策略或者正交顺序融合方法。
同时,还包含传统经典融合方法,包括同一特征空间融合、分别编码后再融合以及图像编码前的信息整合等策略。这些方法有望在多模态信息处理领域取得更好性能表现。
ICLR2024最新多模态融合
1.代表论文:Progressive Fusion for Multimodal Integration
「简述」:来自各种来源的多模式信息的集成已被证明可以提高机器学习模型的性能。该文提出了一种称为渐进融合的迭代表示细化方法,这是一种模型无关技术,通过向后连接使早期层可以使用后期融合表示,提高了表示的表达能力。渐进融合避免了使用后期融合时出现的信息丢失,同时保留了后期融合设计的优势。
2.代表论文:Orthogonal Sequential Fusion in Multimodal Learning
「简述」:多种模态的数据集成是机器学习的一个挑战,包括从图像字幕到文本到图像生成的应用。该文介绍了一种新的融合范式,称为正交序列融合OSF,它顺序合并输入并允许对模态进行选择性加权。这种逐步过程还能够促进正交表示,从而提取每个附加模态的互补信息。
3.代表论文:Balanced Multimodal Learning: An Integrated Framework for Multi-Task Learning in Audio-Visual Fusion
「简述」:该文引入了一个多模式学习框架BalanceMLA,旨在动态平衡和优化每种模式。该框架可以独立地调整每个模态的目标,并自适应地控制它们的优化。此外,该文提出了一种双边残差特征融合和自适应加权决策融合策略来动态管理这些不平衡,引入了一种动态生成的类级加权方案,以满足细粒度任务的需要。
传统经典融合方法
1.提取特征后并转换到同一特征空间后进行特征融合
代表论文:DeepFusion:Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection
「简述」:激光雷达和摄像头是为自动驾驶中的3D检测提供补充信息的关键传感器。但研究表明,将相机特征与深度激光雷达特征而不是原始点融合可以带来更好的性能。该文提出了两种新技术:InverseAug,它反转几何相关的增强,例如旋转,以实现激光雷达点和图像像素之间的精确几何对准;以及LearnableAlign,它利用交叉注意力在融合过程中动态捕捉图像和激光雷达特征之间的相关性。
2.在encoding过程中逐步融合
代表论文:DBCNet: Dynamic Bilateral Cross-Fusion Network for RGB-T Urban Scene Understanding in Intelligent Vehicles
「简述」:该文通过引入动态双边交叉融合网络(DBCNet)来理解RGB-T城市场景,从而利用RGB和热(RGB-T)图像中的多模式信息。首先,由给定主干提取的RGB-T特征被重新组合为高级或低级特征。其次,将多模式高级特征发送到动态双边交叉融合模块进行进一步细化。第三,增加了一个有界的高级语义特征集成模块来提供特征指导,并使用多任务监督机制进行微调。
3.分别进行encoding特征提取后,融合特征图
代表论文:CEKD:Cross Ensemble Knowledge Distillation for Augmented Fine-grained Data
「简述」:现有的数据增强方法通过混合图像对并根据混合像素的统计信息融合相应的标签来解决模糊问题,这会产生对网络性能有害的额外噪声。该文提出了一个简单而有效的跨集成知识提取(CEKD)模型,用于细粒度特征学习,以及一个交叉蒸馏模块,以提供额外的监督来缓解噪声问题,并提出了一种协作集成模块来克服目标冲突问题。
4.在图像编码前融合
代表论文:Rethinking multi-exposure image fusion with extreme and diverse exposure levels: A robust framework based on Fourier transform and contrastive learning
「简述」:多曝光图像融合(MEF)是生成高动态范围图像的重要技术。该文提出了一个基于傅立叶变换和对比学习的鲁棒MEF框架。具体来说,该文开发了一种基于傅立叶变换的像素强度转移策略,从正常曝光的自然图像中合成具有不同曝光水平的图像,并训练编码器-解码器网络来重建原始自然图像。通过这种方式,编码器和解码器可以学习从具有不同曝光水平的图像中提取特征,并生成具有正常曝光的融合图像。
5.根据不同模态生成对应的策略,进行策略融合
代表论文:Multi-modal policy fusion for end-to-end autonomous driving
「简述」:自动驾驶中对于实际驾驶任务3D场景是关键。该文证明了基于现有传感器融合方法的模仿学习策略在存在高密度动态代理和复杂场景的情况下执行不足,这些场景需要全局上下文推理,例如在不受控制的十字路口处理来自多个方向的交通。因此,该文提出了TransFuser,一种新型的多模融合转换器,用于使用注意力集成图像和激光雷达表示。
6.分别编码两种模态,并依据结果进行对比学习
代表论文:Multi-modal contrastive mutual learning and pseudo-label re-learning for semi-supervised medical image segmentation
「简述」:半监督学习在具有少量标记数据的医学图像分割任务中具有很大的潜力,但大多数只考虑单模态数据。多模态数据的优异特性可以提高每种图像模态的半监督分割性能。
该文提出了一种半监督对比互学习(semi-CML)分割框架,其中一种新的区域相似性对比(ASC)损失利用不同模态之间的跨模态信息和预测一致性来进行对比互学习。
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓