2025深度学习发论文&模型涨点之—— 多模态embedding
多模态Embedding技术旨在通过联合嵌入空间将文本、图像、音频、视频等异质模态数据映射为几何结构与语义关联可解耦的向量表示,从而解决模态间语义鸿沟、表示对齐与协同推理等关键挑战。
然而,由于不同模态在数据分布、信息密度与抽象层级上的本质差异,构建兼具鲁棒性、可解释性与可迁移性的多模态Embedding框架仍面临理论与技术双重瓶颈。
我整理了一些 多模态embedding【论文+代码】合集,需要的同学公人人人号【AI创新工场】自取。
论文精选
论文1:
Beyond Embeddings: The Promise of Visual Table in Visual Reasoning
超越嵌入:视觉表在视觉推理中的潜力
方法
视觉表(Visual Table):提出了一种新的视觉表示形式,以层次化文本描述构建视觉场景,包含场景描述和多个以对象为中心的描述,涵盖对象类别、属性和知识。
生成器训练:开发了一个基于小规模注释数据训练的生成器,能够为任意输入图像自动生成视觉表。
多模态语言模型(MLLMs)集成:将生成的视觉表作为视觉表示,集成到多模态语言模型中,用于提升视觉推理任务的性能。
基准测试验证:在11个视觉推理基准测试中验证了视觉表的有效性,涵盖视觉问答(VQA)、跨模态检索等任务。