亲爱的小伙伴们😘,在求知的漫漫旅途中,若你对深度学习的奥秘、JAVA 、PYTHON与SAP 的奇妙世界,亦或是读研论文的撰写攻略有所探寻🧐,那不妨给我一个小小的关注吧🥰。我会精心筹备,在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享🎁。每一个点赞👍,都如同春日里的一缕阳光,给予我满满的动力与温暖,让我们在学习成长的道路上相伴而行,共同进步✨。期待你的关注与点赞哟🤗!
多模态作为一个跨学科领域,融合了多种感知模态的信息,以实现更强大、更智能的信息处理和交互。以下是按照不同发展阶段和论文类型对多模态发展历史及相关经典论文的详细介绍。
一、早期理论探索阶段
1. 《Mehrabian's 情感通信论》
- 链接:无具体论文链接,该理论由认知心理学家 Albert Mehrabian 于 20 世纪 70 年代提出。
- 简介:此理论指出在面对面交流中,言语仅占总体交流的 7%,而非言语的声音和肢体动作等占 93%,揭示了人类交流中多感知通道的运用,为多模态理论奠定了基础,促使人们关注非言语信息在交流中的重要性。
2. 多模态计算模型相关研究
- 链接:无明确经典论文链接,于 20 世纪 80 年代提出。
- 简介:学者们将多模态理论进一步系统化,提出多模态计算模型,把多模态信息处理分为感知阶段、草图表示阶段和理解与决策阶段,阐述了多模态信息在人类认知中的处理过程,为后续多模态技术在计算机领域的应用提供了理论框架。
3. 《Halliday’s Social Semiotic Theory of Communication》
- 链接:https://doi.org/10.1075/z.39
- 简介:由 Halliday 于 1978 年提出,该理论从社会角度探讨交流中的符号差异,强调不同交流模式的存在是基于其社会功能,而非单纯的规则设定,为多模态研究提供了语言学理论基础,启发了后续学者对多模态交流中社会文化因素的思考。
二、融合方法探索阶段
1. 《传感器融合的外部多模态成像传感器标定:综述》
- 链接:https://doi.org/10.1109/JSEN.2023.3239272
- 简介:2023 年的这篇综述论文,对多模态成像传感器标定的研究现状进行了全面梳理,涵盖传统基于运动的标定和基于特征的标定等方法,总结了评估标定方法的关键因素,并探讨了其在不同领域的应用,为多模态数据采集和预处理阶段的传感器融合提供了重要参考和指导。
2. 《低质量多模态数据的可证明动态融合》
- 链接:https://doi.org/10.1109/TIP.2023.3242626
- 简介:同样发表于 2023 年,该文针对多模态融合中的数据质量和固有挑战展开研究,提出动态多模态融合作为学习范式,并通过理论分析揭示了不确定性估计解决方案可实现鲁棒的多模态融合,还创新性地提出 “质量感知多模态融合” 新型框架,有效提高了分类准确性和模型鲁棒性,为解决多模态数据融合中的质量问题提供了新思路和方法。
3. 多模态融合方法早期探索相关研究
- 链接:无特定经典论文链接,20 世纪 90 年代左右出现。
- 简介:学者们开始关注计算机视觉和多模态信息融合的研究,提出了一系列如特征级融合、决策级融合等多模态融合方法,通过将不同模态的信息进行融合,达到更好的信息处理和理解效果,为多模态技术在实际应用中的推广奠定了技术基础。
三、深度学习时代的多模态融合阶段
1. 《SkipCrossNets: 自适应跳过交叉融合用于道路检测》
- 链接:https://doi.org/10.1109/TITS.2023.3251747
- 简介:2023 年提出的 SkipCrossNets 是一种新型融合架构,用于自适应地将 LiDAR 点云和相机图像进行融合以用于自动驾驶任务。该网络通过特定的连接方式增强特征传播和多模态特征融合,减少了特征融合的复杂性和模型参数数量,显著提升了自动驾驶场景中多模态数据融合的效率和准确性,为自动驾驶技术的发展提供了更有力的支持。
2. 《FusionFormer: 面向三维目标检测的多传感器融合与时间一致性 Transformer》
- 链接:https://doi.org/10.1109/TITS.2023.3254274
- 简介:2023 年的这篇论文提出了 FusionFormer 框架,通过在融合编码模块中引入可变形注意力和残差结构,解决了现有方法在将特征转换为鸟瞰图空间时可能丢失信息的问题,利用统一采样策略自然地从 2D 图像和 3D 体素特征中采样,有效提高了 3D 目标检测任务中的多模态融合效果,推动了多模态技术在计算机视觉领域的进一步发展。
3. 《ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision》
- 链接:https://arxiv.org/abs/2102.03334
- 简介:提出了一个最小的视觉语言预训练模型 Vision-and-Language Transformer (ViLT),极大地简化了视觉输入的处理方式,与处理文本输入一样采用无卷积方式,有效降低了模型的复杂度和计算成本,同时在多个视觉语言任务上取得了较好的性能,推动了多模态融合技术在视觉语言领域的发展,为后续更高效的多模态模型设计提供了借鉴。
4. 《UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning》
- 链接:https://arxiv.org/abs/2012.15409
- 简介:提出了统一的模态预训练架构 UNIMO,可有效适应单一模式以及多模态理解和生成任务。该架构利用大规模自由文本语料库和图像集合,通过跨模态对比学习将文本和视觉信息对齐到统一语义空间,显著提升了模型对视觉和文本的理解能力,为多模态预训练模型的发展提供了新的思路和方法。
四、多模态在特定领域的应用与优化阶段
1. 《多模态语义映射用于物体检测和 3D 定位》
- 链接:https://doi.org/10.1109/LRA.2023.3239244
- 简介:2023 年的该论文提出基于多模态传感器融合的框架,用于在已知环境中自主检测和定位预定义对象,结合 RGB-D 相机和激光雷达的 RGB 和深度数据,在真实样本环境中实现了高准确率的物体检测和定位,为机器人导航、智能仓储等领域的应用提供了重要技术支持,推动了多模态技术在实际场景中的落地。
2. 《DBCNet: 用于智能车辆 RGB-T 城市场景理解的动态双边交叉融合网络》
- 链接:https://doi.org/10.1109/TITS.2023.3252265
- 简介:2023 年提出的 DBCNet 利用 RGB-T 图像中的多模态信息,通过引入动态双边交叉融合网络进行城市场景理解,有效聚合多层次的深层特征,性能优于最先进的深度学习场景理解方法,为智能交通领域的场景理解和分析提供了更有力的技术支持,有助于提高智能车辆对复杂城市场景的认知和决策能力。
3. 《MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving》
- 链接:https://arxiv.org/abs/2301.13334
- 简介:提出了多模态 3D 语义分割模型 MSeg3D,通过联合模态特征和跨模态融合以解决多模态困难,提升了自动驾驶场景中对道路环境的理解和感知能力,有助于自动驾驶汽车更准确地识别和理解周围的物体和场景,对自动驾驶技术的安全性和可靠性提升具有重要意义。
4. 《Selection and Reconstruction of Key Locals: A Novel Specific Domain Image-Text Retrieval Method》
- 链接:无公开链接,由网易伏羲提出。
- 简介:专注于特定领域图像文本检索问题,通过设计关键局部信息选择和重建框架及重构策略,利用细粒度局部信息提升图像与文本在共享表示空间中的对齐质量,为多模态智能体在特定领域下的图像文本交互提供了技术支持,在文化遗产保护、医学图像检索等特定领域具有广阔的应用前景。
五、多模态基础模型性能评估与改进阶段
1. 《IsoBench: 多模态基础模型性能的基准测试与优化》
- 链接:https://arxiv.org/abs/2402.03054
- 简介:2024 年提出的 IsoBench 基准数据集,通过提供多种同构表示形式的问题,测试和评估多模态基础模型在数学、科学、算法和游戏等领域的表现,发现当前多模态模型在处理文本输入时性能普遍优于图像输入,并介绍了 IsoCombination 和 IsoScratchPad 等提升模型性能的提示技术,为多模态基础模型的性能评估和改进提供了重要依据和方法,有助于推动多模态基础模型的进一步优化和发展。
2. 《Multi-modal Mutual Attention and Iterative Interaction for Referring Image Segmentation》
- 链接:https://doi.org/10.1109/TIP.2023.3242704
- 简介:提出多模态相互关注和多模态相互解码器的方法来解决参考图像分割问题,通过更好地融合语言和视觉信息提高模型对多模态信息的理解能力,并引入迭代多模态交互和语言特征重建,防止丢失或扭曲语言信息,显著改善了基线并优于最先进的参考图像分割方法,为多模态图像理解和分割任务的性能提升提供了有效途径。
六、多模态与其他技术结合阶段
1. 《ChatGPT-Like Large-Scale Foundation Models for Prognostics and Health Management: A Survey and Roadmaps》
- 链接:https://doi.org/10.1109/TII.2024.3352065
- 简介:系统阐述了关键组成部分和最新大规模基础模型在预测与健康管理领域的发展,回答了如何构建适用于该任务的基础模型,并概述了挑战和未来发展路线图,体现了多模态技术与大规模语言模型结合在特定领域应用的探索,为多模态技术在医疗健康领域的创新应用提供了指导和展望。
2. 《MiniGPT4: Enhancing Vision -Language Understanding with Advanced Large Language Models》
- 链接:https://arxiv.org/abs/2304.10592
- 简介:使用投影层将视觉编码器和语言模型 Vicuna 对齐,提出 MiniGPT-4,能够根据给定图像写故事、诗歌,为图像中问题提供解决方案等,展示了多模态技术与先进语言模型结合提升视觉语言理解能力的成果,为开发更强大的多模态语言模型提供了新的思路和方法。
3. 《LLaVA: Visual Instruction Tuning》
- 链接:https://arxiv.org/abs/2304.08485
- 简介:首次尝试使用仅语言的 GPT-4 生成多模态语言图像遵循指令的数据,并在此基础上提出 LLaVA,这是一种端到端训练的大型多模态模型,将视觉编码器和 LLM 连接起来用于通用的视觉和语言理解,推动了多模态与语言指令微调技术的结合,为多模态语言模型的训练和优化提供了新的范例。