ProVision：首个可编程视觉数据生成框架，让AI真正看懂图像| 1.8B参数完胜7B！Eve模型刷新小型多模态AI新纪录-CSDN博客

本文链接：https://blog.csdn.net/m0_59614665/article/details/145184783

1、ProVision：首个可编程视觉数据生成框架，让AI真正看懂图像
2、1.8B参数完胜7B！Eve模型刷新小型多模态AI新纪录

1、ProVision：首个可编程视觉数据生成框架，让AI真正看懂图像

在这里插入图片描述

在多模态AI发展中，高质量的视觉指令数据对模型训练至关重要。然而，目前主流的数据生成方法主要依赖于大型语言模型(LLM)或多模态语言模型(MLM)，这不仅成本高昂，还容易产生幻觉问题，且难以扩展和解释。最近，研究人员提出了一个突破性的框架ProVision，通过可编程方式生成视觉指令数据，为这一难题带来了新的解决方案。

在这里插入图片描述

ProVision的核心创新在于利用场景图谱作为图像的符号化表示，配合人工编写的程序来系统性地生成视觉指令数据。在场景图谱中，每个物体都被表示为一个节点，其属性（如颜色、大小、材质）直接附加到节点上，物体之间的关系则用有向边表示。基于这种结构化表示，ProVision实现了24个单图像指令生成器和14个多图像指令生成器，可以自动生成涉及物体、属性、关系、深度等各个方面的问答对。

实验结果显示，ProVision的表现令人印象深刻。研究团队利用Visual Genome和DataComp数据集，生成了超过1000万条指令数据（PROVISION-10M）。在多个基准测试中，使用这些数据训练的模型都取得了显著提升：在CVBench的2D和3D测试中分别提升了7%和8%，在QBench2、RealWorldQA和MMMU上提升了约3%，在多图像理解任务Mantis-Eval上更是提升了8%。特别值得一提的是，将这些数据同时用于预训练和指令微调阶段，效果比单独使用更好，在11个基准测试中平均提升了1.6%。

在这里插入图片描述

论文标题：ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models
论文链接：https://arxiv.org/abs/2412.07012

2、1.8B参数完胜7B！Eve模型刷新小型多模态AI新纪录

在多模态AI领域，大型视觉语言模型（VLM）虽然表现出色，但往往需要庞大的模型参数和算力支持，这严重限制了它们在边缘设备上的实际应用。近期，研究人员提出了一个突破性的框架Eve（Efficient Vision Language Models with Elastic Visual Experts），仅用1.8B的参数量就实现了超越7B规模LLaVA-1.5模型的多模态性能，为轻量级AI打开了新的可能。

在这里插入图片描述

Eve的核心创新在于其"弹性视觉专家"机制。这个框架在训练过程中分三个阶段strategically引入适应性视觉专家模块，每个专家都专注于不同的视觉任务。在前两个阶段，Eve巧妙地利用预训练好的ResNet和ViT作为弹性视觉编码器；在第三阶段，通过在语言模型中整合弹性视觉前馈网络（FFN），同时保持原有语言模型部分冻结，既增强了多模态能力，又完整保留了语言处理能力。

在这里插入图片描述

实验结果：在参数量低于3B的模型中，Eve在VLM基准测试中取得了68.87%的最佳成绩，超越了同类参数规模的DeepSeek-VL 1.9%的性能。更值得注意的是，Eve在多模态任务上的表现甚至超越了参数量是其4倍的LLaVA-1.5模型，同时在语言能力测试上也保持了出色表现。这一突破证明，通过精心的架构设计，小型模型完全可以在保持高效性的同时，实现与大型模型媲美的性能。

在这里插入图片描述