未来AI发展的必然趋势是什么?必然是多模态深度学习。它不仅是当前人工智能领域的热门研究方向之一,也是学术界和工业界共同关注的重点,值得长期投入。
当然,这方向仍存在大量开放性问题,但对论文er来说也意味着更多的创新空间,推荐还没有idea的同学尝试。目前多模态深度学可考虑的热点研究方向有4个:多模态大模型(比如最近爆火的DeepSeek-R1的多模态版Align-Anything)、跨模态生成、低资源多模态学习、多模态因果推理。
为方便大家研究的进行,我这边整理好了98篇多模态深度学习最新论文,每个方向都有参考(附代码),不想多花时间找论文的同学可以直接拿~
全部论文+开源代码需要的同学看文末
多模态大模型:
如GPT-4V、LLaVA等结合语言模型与视觉理解的系统。
Reconstructive Visual Instruction Tuning
ICLR 2025
方法:论文介绍了一种多模态大模型的训练方法,名为ROSS,通过视觉中心重构目标对视觉输出进行监督,解决了视觉信号空间冗余问题,并采用去噪目标增强了模型的细粒度理解能力和减少幻觉现象,显著提升了视觉编码器和语言模型的性能。