InternVL2: Better than the Best—Expanding Performance Boundaries of Open-Source Multimodal Models

InternVL2: Better than the Best—Expanding Performance Boundaries of Open-Source Multimodal Models with the Progressive Scaling Strategy

InternVL2:超越最好——通过渐进式扩展策略扩展开源多模态模型的性能边界
官网地址:https://internvl.github.io/blog/2024-07-02-InternVL-2.0/
官网解读:https://zhuanlan.zhihu.com/p/706547971

虽然在2025年InternVL2不是最佳的多模态模型,但是该系列的InternVL2.5任然是sota模型。故此还是需要了解InternVL2的创新。

基于对InternVL2的分析,可以得到以下经验:
1、对于将预训练好的VIT与LLM模型组装成mllm模型时,可以只训练MLP部分,实现快速的模态对齐
2、llm部分的升级可以大幅度提升mllm模型的效果,尤其是在非标准格式问答中
3、数据分布域的改变,导致在标准格式输出,如grounding任务中,模型性能的下降(这表明模型能力的提升不一定是全面的)

1、模型信息

1.1 性能信息

这里可以发现InternVL2-8B模型比上一版本的26B模型还要强不少,而这里只有语言部分的区别:InternVL1.5用的是InternLM2-20B,InternVL2-8B模型用的是internlm2.5-7b模型。固定视觉部分,优化llm展现了巨大的性能提升。
在这里插入图片描述

1.2 InternVL2模型结构

InternVL2由语言部分和视觉部分(VIT+MLP)组成
在这里插入图片描述
每一部分的版本详情如下所示,可以发现VIT部分还是使用了上一版(InternVL1.5模型中)的InternViT-6B-448px-V1.5模型,但补充了InternViT-300M-448px版本,以实现对8B以下mllm模型的支持。而语言部分,则进行了不同层次的扩展,如internlm2.5-7b,qwen1-0.5b、等。
在这里插入图片描述
模块间的匹配关系如下
在这里插入图片描述

1.3 参数详情

这里主要明白VIT、MLP、LLM之间的参数量匹配关系。VIT模型只有两个参数规模,这表明视觉部分不是制约mllm性能的关键。MLP的参数增长规模与LLM的增长是相适应的,MLP主要实现将VIT输出的encoding投影到LLM所能理解的token中。

在这里插入图片描述

2、算法改进

2.1 构建原则

InternVL2 系列基于以下设计构建:

  • 1、使用较大的语言模型进行渐进式:我们引入了渐进式对齐 训练策略,从而产生第一个原生对齐的 Vision Foundation 模型 使用大型语言模型。通过采用渐进式训练策略,其中模型 从小到大,当数据从粗细到细时,我们完成了 以相对较低的成本训练大型模型。这种方法已经证明 在有限的资源下实现出色的性能。
  • 2、多模态输入:通过一组参数,我们的模型支持多种模态 的输入,包括文本、图像、视频和医疗数据
  • 3、多任务输出:由我们最近的工作 VisionLLMv2 提供支持, 我们的模型支持各种输出格式,例如图像、边界框和蒙版, 展示广泛的多功能性。通过将 MLLM 与多个下游任务连接起来 解码器,InternVL2 可以推广到数百个视觉语言任务,同时实现 性能可与专业模型相媲美

2.2 训练步骤

InternVL-2的训练步骤如下所示,在模态对齐中仅实现了对MLP部分的微调。
第一阶段,仅训练MLP,快速实现现有预训练模型的模态对齐;
第二阶段,训练所有参数,实现性能的提升
在这里插入图片描述
而原来InternVL-1的训练步骤则为3步,可以发现最模态对齐中有较多的步骤
在这里插入图片描述

3、性能指标

数据来源自 https://huggingface.co/OpenGVLab/InternVL2-40B#quick-start

3.1 Image Benchmarks

可以发现与同时期模型相比,InternVL是超越了Gemini1.5 pro,但预计与gpt4o存在差异
在这里插入图片描述

3.2 Video Benchmarks

在视觉指标中,没有与Gemini1.5 pro对比,可以发现还是差了不少。40b模型不如qwen2-vl 7b模型。这表明该模型在时序建模方式上存在不足。
在这里插入图片描述

3.3 Grounding Benchmarks

在Grounding 任务中,可以发现InternVL2‑26B模型效果还不如InternVL‑Chat‑V1‑5,这表明训练数据的分布变化会严重影响效果,llm性能增益不如数据增益有效。该现象表明,在专业任务中,广而泛的大模型不如专业数据训练出的小模型。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

万里鹏程转瞬至

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值