InternVL2: Better than the Best—Expanding Performance Boundaries of Open-Source Multimodal Models

本文链接：https://blog.csdn.net/a486259/article/details/146122877

InternVL2: Better than the Best—Expanding Performance Boundaries of Open-Source Multimodal Models with the Progressive Scaling Strategy

InternVL2：超越最好——通过渐进式扩展策略扩展开源多模态模型的性能边界
官网地址：https://internvl.github.io/blog/2024-07-02-InternVL-2.0/
官网解读：https://zhuanlan.zhihu.com/p/706547971

虽然在2025年InternVL2不是最佳的多模态模型，但是该系列的InternVL2.5任然是sota模型。故此还是需要了解InternVL2的创新。

基于对InternVL2的分析，可以得到以下经验：
1、对于将预训练好的VIT与LLM模型组装成mllm模型时，可以只训练MLP部分，实现快速的模态对齐
2、llm部分的升级可以大幅度提升mllm模型的效果，尤其是在非标准格式问答中
3、数据分布域的改变，导致在标准格式输出，如grounding任务中，模型性能的下降（这表明模型能力的提升不一定是全面的）

1、模型信息

1.1 性能信息

这里可以发现InternVL2-8B模型比上一版本的26B模型还要强不少，而这里只有语言部分的区别：InternVL1.5用的是InternLM2-20B，InternVL2-8B模型用的是internlm2.5-7b模型。固定视觉部分，优化llm展现了巨大的性能提升。
在这里插入图片描述

1.2 InternVL2模型结构

InternVL2由语言部分和视觉部分(VIT+MLP)组成
在这里插入图片描述
每一部分的版本详情如下所示，可以发现VIT部分还是使用了上一版（InternVL1.5模型中）的InternViT-6B-448px-V1.5模型，但补充了InternViT-300M-448px版本，以实现对8B以下mllm模型的支持。而语言部分，则进行了不同层次的扩展，如internlm2.5-7b，qwen1-0.5b、等。
在这里插入图片描述
模块间的匹配关系如下

1.3 参数详情

这里主要明白VIT、MLP、LLM之间的参数量匹配关系。VIT模型只有两个参数规模，这表明视觉部分不是制约mllm性能的关键。MLP的参数增长规模与LLM的增长是相适应的，MLP主要实现将VIT输出的encoding投影到LLM所能理解的token中。

在这里插入图片描述

2、算法改进

2.1 构建原则

InternVL2 系列基于以下设计构建：

1、使用较大的语言模型进行渐进式：我们引入了渐进式对齐训练策略，从而产生第一个原生对齐的 Vision Foundation 模型使用大型语言模型。通过采用渐进式训练策略，其中模型从小到大，当数据从粗细到细时，我们完成了以相对较低的成本训练大型模型。这种方法已经证明在有限的资源下实现出色的性能。
2、多模态输入：通过一组参数，我们的模型支持多种模态的输入，包括文本、图像、视频和医疗数据。
3、多任务输出：由我们最近的工作 VisionLLMv2 提供支持，我们的模型支持各种输出格式，例如图像、边界框和蒙版，展示广泛的多功能性。通过将 MLLM 与多个下游任务连接起来解码器，InternVL2 可以推广到数百个视觉语言任务，同时实现性能可与专业模型相媲美。