端侧实时运行、3B媲美7B！美团、浙大等提出MobileVLM V2：更快、更强的端侧视觉语言模型...-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/136441230

美团、浙大等团队发布了MobileVLM V2，这是一种端侧视觉语言模型，可在小参数量下实现高性能，甚至在某些基准上超越7B参数的模型。MobileVLM V2引入了高质量数据、优化训练策略和轻量级投影网络，提高了端侧实时运行的效率和性能。模型、代码和端侧推理方案均已开源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

美团、浙大等于近日推出了 MobileVLM V2，其中包含参数量 1.7B、3B、以及 7B 的一系列视觉-语言模型。代码与模型以及适配的端侧推理方案都已开源。

论文地址：

https://arxiv.org/abs/2402.03766

模型地址：

https://huggingface.co/mtgv

代码地址：

https://github.com/Meituan-AutoML/MobileVLM

大模型涌向移动端的浪潮愈演愈烈，作为第一个针对端侧的视觉语言模型的工作，归功于 MobileVLM 在小参数量下的强大性能和完善的端侧实时运行端侧推理方案，MobileVLM 一经推出就受到了国内外开源社区的广泛关注。

在延续前作优势的基础上，MobileVLM V2 进行了显著的改进，使用了新颖的架构设计、针对移动端 VLM 量身定制训练方案、并丰富了高质量数据，使 MobileVLM V2 的性能表现更上一层楼的同时，也为业界对于端侧视觉语言模型解决方案提供了新的思路。

具体而言，与参数量更大的 3B VLM 相比，MobileVLM V2 1.7B 在标准 VLM 基准测试中达到了同等甚至更好的的性能；特别是 MobileVLM V2 3B 模型在某些标准测试基准上甚至优于参数规模 7B 甚至更大的 VLM。

简介

视觉-语言模型（VLM）已成为当今人工智能领域的一个研究热点。通过融合大型语言模型（LLM）和多模态功能，视觉-语言模型展现出前所未有的多功能性。例如，Gemini 和 GPT-4V 等专有模型在多种任务中展示了卓越的性能。尽管 VLM 表现出色，但如何将其部署到如移动设备、自动驾驶汽车和嵌入式人工智能系统等实际应用中，依然面临着挑战。

最近，MobileVLM 在探索移动端硬件架构导向的小规模 VLMs 的能力方面走在了前列。MoE-LLaVA 采用了 mixture-of-experts 方法，显著提升了小型模型的性能，使其超越了许多大型模型。最新研究显示，VLMs 正朝着扩展模态、优化训练流程、高效架构和高质量训练数据集的方向发展。

本文基于 MobileVLM 进行了大幅改进，主要集中在三个方面：首先是训练数据的利用：本文通过使用 ShareGPT4V 收集的 120 万对高质量图像-文本配对数据，有效地对齐了视觉-语言特征。这一数据集的引入提高了数据的多样性，并增强了模型遵循指令的能力，同时纳入了更多学术任务，例如 ScienceQA、TextVQA、SBU 等。

其次是训练策略的探索：在训练策略方面，该方法在预训练和指令微调阶段对投影网络和语言模型的所有参数进行了训练，这种做法在充分利用高质量数据潜力方面显示出了有效性。

轻量级高性能投影网络的更新：引入了一个更加精简而强大的轻量级投影机制并通过该机制连接视觉和语言模型。通过改进图像 token 的表示、增强了位置信息的手段，MobileVLM V2 能够在几乎不降低性能的情况下显著减少语言模型所需的输入图像 token 的数量。本文的主要贡献如下：

1. 本文探索并评估了增加小型视觉-语言模型训练数据的性能，显著缩小了如 MobileVLM 这样的小型 VLMs 与大参数量视觉-语言模型之间的性能差距。

2. 本文深入研究了对于移动端场景下更友好的训练策略，并设计了一种新颖的训练方案，以充分利用更多高质量多模态数据的潜力。本文提出了一个非常轻量级的投影网络，以显著减少视觉 token 的数量，同时对性能只有轻微的影响。

3. 本文提出的方法在多个视觉-语言基准测试中取得了性能与推理速度之间的最佳平衡。通过将 MobileVLM V2 模型的参数规模扩展到70亿，本文的方法大幅超越了之前最先进的模型。