多模态大模型 intern_vl 2.0版本解读

目录

更大规模的语言模型

多模态输入

多任务输出

性能表现


github:GitHub - OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的可商用开源多模态对话模型

论文:https://arxiv.org/pdf/2404.16821(还是internvl1.5)

TypeModelDateHF LinkMS LinkDocument
Multimodal Large Language ModelsInternVL2-1B2024.07.08🤗 link🤖 link📖 doc
InternVL2-2B2024.07.04🤗 link🤖 link📖 doc
InternVL2-4B2024.07.04🤗 link🤖 link📖 doc
InternVL2-8B2024.07.04🤗 link🤖 link📖 doc
InternVL2-26B2024.07.04🤗 link🤖 link📖 doc
InternVL2-40B2024.07.08🤗 link🤖 link📖 doc
InternVL2-Llama3-76B2024.07.15🤗 link🤖 link📖 doc
InternVL2-108BTODOTODOTODOTODO
InternVL2-ProTODOTODOTODOTODO
Vision Foundation ModelInternViT-300M-448px2024.05.25🤗 link🤖 link📖 doc
InternViT-6B-448px-V1-52024.04.20🤗 link🤖 link📖 doc

我们介绍了InternVL2,这是目前最强大的开源多模态大语言模型(MLLM)。InternVL2家族包括从适合边缘设备的1B模型到显著更强大的108B模型。通过更大规模的语言模型,InternVL2-Pro展示了出色的多模态理解能力,在各种基准测试中表现与商业闭源模型相当。

InternVL2家族基于以下设计理念:

更大规模的语言模型

我们引入了一种渐进对齐训练策略,首次实现了与大语言模型原生对齐的视觉基础模型。通过这种从小到大、从粗到细的渐进训练策略,我们在相对低成本下完成了大模型的训练。这种方法在有限资源下表现出色。

多模态输入

我们的模型支持多种模态的输入,包括文本、图像、视频和医疗数据,只需一组参数即可实现。

多任务输出

借助我们最近的工作VisionLLMv2,我们的模型支持多种输出格式,如图像、边界框和掩码,展示了广泛的多功能性。通过将MLLM与多个下游任务解码器连接,InternVL2能够推广到数百个视觉语言任务,并实现与专家模型相当的性能。

NameInternVL2-2BInternVL2-4BInternVL2-8BInternVL2-26BInternVL2-40BInternVL2-108B
模型大小Total2.21B4.15B8.08B25.51B40.07B108.70B
ViT304.01M304.01M304.01M5.54B5.54B5.54B
MLP12.60M22.03M33.57M116.43M143.17M172.01M
LLM2.21B3.82B7.74B19.86B34.39B102.99B
分辨率动态分辨率,训练时最大为12个448×448的块,测试时最大为40个块(4K分辨率)。
Stage-1Training Data我们扩展了InternVL 1.5中使用的预训练数据集,收集了来自多种来源的数据。这些数据集涵盖了多个任务,包括描述、视觉问答、检测、定位和OCR。OCR数据集使用PaddleOCR对来自悟空的中文图像和来自LaionCOCO的英文图像进行OCR,并进行了人工验证。此外,我们还抓取并手动解析了来自uworld、kaptest、testbank、aga和sat的考试数据。还利用了来自OmniCorpus的交错数据。
Trainable ModuleMLP
Stage-2Training Data我们基于InternVL 1.5中使用的500万高质量双语数据集构建了训练数据。具体来说,我们包括了视频数据如EgoTaskQA、Mementos、STAR、NTU RGB+D、VideoChat2IT和LSMDC-QA,以及医疗数据如Medical-Diff-VQA、Pathology-VQA、PMC-CaseReport、PMC-VQA、Slake和VQA-RAD。我们还包括了SROIE、FUNSD和POIE,以进一步增强模型识别手写字体的能力。此外,我们排除了所有来自ShareGPT-4V的数据,并用ShareGPT-4o的数据替代。
Trainable ModuleViT + MLP + LLM

性能表现

InternVL2在处理复杂多模态数据方面展示了强大的能力,尤其在数学、科学图表、通用图表、文档、信息图和OCR任务中表现出色。例如,在MathVista基准测试中,InternVL2达到了66.3%的准确率,显著超越了其他闭源商业模型和开源模型。此外,InternVL2在多个基准测试中达到了最先进的性能,包括通用图表基准测试ChartQA、文档基准测试DocVQA、信息图基准测试InfographicVQA以及通用视觉问答基准测试MMBench。

值得注意的是,在AI2D基准测试中有两种评估设置。在第一种设置中,我们将图像中矩形内的内容替换为选项的字母。在第二种设置中,我们将矩形内的内容替换为选项的字母和数值。我们的模型在第一种设置中达到了87.3的性能,在第二种设置中达到了96.0的性能。

  • 专有模型
nameMMMU
(val)
MathVista
(testmini)
AI2D
(test)
ChartQA
(test)
DocVQA
(test)
InfoVQA
(test)
OCRBenchMMB-EN
(test)
MMB-CN
(test)
OpenCompass
(avg score)
GPT-4V*
(20240409)
63.1 / 61.758.189.478.187.2-67881.080.263.5
Gemini Pro 1.5*58.5 / 60.657.780.381.386.572.775473.973.864.4
Claude3.5-Sonnet*68.3 / 65.967.794.790.895.2-78879.780.767.9
GPT-4o*
(20240513)
69.1 / 69.263.894.285.792.8-73683.482.169.9
Cambrian-149.7 / 50.453.279.775.675.5-60081.4-58.3
LLaVA-NeXT Qwen1.550.149.080.479.785.7--80.5--
InternVL2-Pro58.9 / 62.066.387.3 / 96.087.195.183.383787.887.2

71.8

nameMMMU
(val)
MathVista
(testmini)
AI2D
(test)
ChartQA
(test)
DocVQA
(test)
InfoVQA
(test)
OCRBenchMMB-EN
(test)
MMB-CN
(test)
OpenCompass
(avg score)
InternVL2-1B35.4 / 36.737.764.172.981.750.975465.460.748.3
InternVL2-2B34.3 / 36.346.374.176.286.958.978473.270.954.0
InternVL2-4B47.0 / 48.358.678.981.589.267.078878.673.960.6
InternVL2-8B49.3 / 51.258.383.883.391.674.879481.781.264.1
InternVL2-26B48.3 / 50.759.484.584.992.975.982583.482.066.4
InternVL2-40B53.9 / 55.263.787.186.293.978.783786.886.569.7
InternVL2-Llama3-76B55.2 / 58.265.587.688.494.182.083986.586.371.0
InternVL2-Pro58.9 / 62.066.387.3 / 96.087.195.183.383787.887.271.8

我们同时使用InternVL和VLMEvalKit仓库进行模型评估。具体来说,AI2D、ChartQA、DocVQA、InfoVQA和MMBench的结果是使用InternVL仓库测试的。MathVista和OCRBench的评估则使用了VLMEvalKit。

对于MMMU,我们报告了原始分数(左侧:使用InternVL代码库评估InternVL系列模型,并从技术报告或网页中获取其他模型的分数)和VLMEvalKit分数(右侧:从OpenCompass排行榜中收集)。请注意,使用不同的测试工具包(如InternVL和VLMEvalKit)评估同一模型可能会导致轻微的差异,这是正常现象。代码版本的更新以及环境和硬件的变化也可能导致结果的轻微差异。

除了上述提到的VQA基准测试外,我们还在MM-NIAH基准测试中评估了InternVL2-Pro。MM-NIAH是一个为长多模态文档理解设计的综合基准测试。如图所示,我们的模型结合了检索增强生成(RAG)技术,在理解长多模态文档方面表现与Gemini相当。在计数任务和涉及图像细节的其他任务上的性能提升将留待未来工作。有关结合RAG的InternVL2-Pro的更多细节,请参阅这篇论文。intern-vl 1.5 论文解读:How Far Are We to GPT-4V?-CSDN博客

  • 14
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

samoyan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值