InternVL 2.0：多模态大模型新标杆

OpenGVLab

已于 2024-07-31 19:19:24 修改

阅读量4.1k

点赞数 12

分类专栏： InternVL 文章标签：人工智能 gpt 计算机视觉 ocr 深度学习图像处理 chatgpt

于 2024-07-29 21:07:29 首次发布

本文链接：https://blog.csdn.net/OpenGVLab/article/details/140780716

版权

InternVL 专栏收录该内容

13 篇文章

订阅专栏

7月4日下午，世界人工智能大会科学前沿论坛, 我们发布了InternVL 2.0，中文名称为"书生·万象”，相比业内公认的最强多模态大模型InternVL-1.5，能力又上新台阶。它在关键评测指标比肩国际顶尖商用闭源模型，支持图像、视频、文本、语音、三维、医疗多种模态，百种下游任务性能媲美任务专用模型。同时，书生万象也是国内首个在MMMU(多学科问答)上突破60的模型，堪称开源多模态大模型性能新标杆。数学基准MathVista的测试中、书生万象的得分为66.3%，显著高于其他闭源商业模型和开源模型。在通用图表基准ChartQA、文档类基准DocVQA、信息图表类基准InfographicVQA中以及通用视觉问答基准MMBench (v1.1)中，书生万象也取得了最先进（SOTA）的表现。科学图表基准AI2D的测试中，书生万象大幅领先其他优秀的开源模型，并与商业闭源模型不相上下。

图中红色数字为所有已知模型最先进（SOTA）的表现，可见InternVL 2.0能力比1.5版本有了全面提升。

代码开源/模型下载/试用/微调/部署 （请给我们一个star支持吧^.^）：

https://github.com/OpenGVLab/InternVL

试用Demo：

InternVL 2.0 demohttps://internvl.opengvlab.com/司南评测最强的大模型 InternVL2-Llama3-76B

https://huggingface.co/OpenGVLab/InternVL2-Llama3-76B

端侧小模型

1B\2B\4B\8B 等不同参数的小模型，单卡可部署！

https://huggingface.co/OpenGVLab/InternVL2-8B

社群：

微信搜索gvxiaozhushou，回复“InternVL”等待进群

为什么要做多模态大模型

2022年，OpenAI的ChatGPT引爆大语言模型（LLM)热潮，人工智能大模型行业风起云涌，国外顶尖机构相继跟进，LLaMa、Cluade、Mixtral、Qwen、ChatGLM、Kimi、浦语等优秀的大语言模型竞争日渐胶着，能力不分高下。然而，人工智能的能力不能止于文字，面对万象缤纷的真实世界，LLM似乎难以领会。

图灵奖得主Yann LeCun曾在一次采访中指出，为什么猫狗没有语言，但对世界的理解却比任何 LLM 都要好？这个问题17 世纪的 Sensim 学派哲学家可以回答：因为没有感知就没有认知。生物在5亿年进化出视觉，1万年前才有智人语言/现代人语言，视觉的信息带宽（约20MB/s）远高于语言信息带宽（约12bytes/s) 。LeCun 认为，没有视觉就无法建立对世界有深刻理解的模型，纽约大学助理教授谢赛宁则直言“现有的单纯的语言模型是一个盲人摸象般被遮蔽了双眼的博学的系统”。

InternVL对摄影作品的构图分析（详情见本文第4部分：真实世界感知实例）

就这样，多模态来到人工智能的浪潮之巅。国际顶尖机构相继入局，谷歌推出Gemini Pro1.5，OpenAI推出GPT-4O等商业闭源模型。书生大模型从视觉生根，一路走来，如今进化为书生·万象多模态大模型。“万象”代表我们对多模态大模型的愿景，即理解真实世界一切事物和景象，实现全模态全任务的通用智能。它涵盖图像，视频，文字，语音、三维点云等多种模态，首创渐进式对齐训练，实现了首个与大语言模型对齐的视觉基础模型，通过模型”从小到大”、数据”从粗到精"的渐进式的训练策略，以1/5成本完成了大模型的训练。它在有限资源下展现出卓越的性能表现，横扫国内外开源大模型，媲美国际顶尖商业模型，同时也是国内首个在MMMU（多学科问答）上突破60的模型。它在数学、图表分析、OCR等任务中表现优异，具备处理复杂多模态任务、真实世界感知方面的强大能力，是当之无愧的最强多模态开源大模型。

三年演进，多模态先行者的实至名归之路

2021年推出国内首个广泛覆盖多种视觉任务的大模型书生。2022年发布通用视觉大模型InternImage，实现一个模型在COCO 物体检测，ImageNet图像分类等视觉标杆任务上同时达到世界最佳性能。 2023年底，图文大模型InternVL 1.0以1/3参数量超谷歌视觉模型ViT-22B，减小80%训练成本。2023年5月发布的InternVL-1.5版本智源评测（点击了解）、司南评测（点击了解）等权威榜单认证，性能比超国际上的一系列闭源模型，如Open AI公司的GPT-4V、谷歌Gemini Pro等。在国际最大的人工智能开源社区HuggingFace 开源后，即登顶模型下载量增长趋势榜单，位居首位达到一个月之久，并迅速跻身视觉语言基础模型总下载量榜单上排列前10（点击了解）。如今，我们隆重推出书生·万象多模态大模型（InternVL 2.0）。关键评测指标比肩国际顶尖商用闭源模型，支持图像、视频、文本、语音、三维、医疗多种模态，百种下游任务性能媲美任务专用模型。

更少资源、更高性能世界领先不止于数值

数值表：关键评测优于国际顶尖商业模型

书生·万象在处理复杂多模态数据方面具有强大能力，尤其是在数学、科学图表、通用图表、文档、信息图表和OCR等任务中表现优异。书生·万象在多个基准测试中表现出色，书生·万象多模态大模型是国内首个在MMMU（多学科问答）上突破60的模型，在视觉基准MathVista的测试中、书生·万象的得分为66.3%，显著高于其他闭源商业模型和开源模型。在通用图表基准ChartQA、文档类基准DocVQA、信息图表类基准InfographicVQA中以及通用视觉问答基准MMBench (v1.1)中，书生万象也取得了最先进的表现。在科学图表基准AI2D的测试中，书生万象大幅领先其他优秀的开源模型，并与商业闭源模型不相上下。

数值对比表

通专融合万象理解万物

书生万象具有千亿规模参数，支持图像，视频，文字，语音、三维点云等模态。为了使模型能够支持丰富的输出格式，书生万象首次使用了向量链接技术，链接各领域专用解码器，打通梯度传输链路，实现通专融合，支持检测、分割、图像生成、视觉问答等百种细分任务，性能媲美各领域的专家模型。为了训练书生万象模型，我们从各类来源构建了最大图文交错数据集OmniCorpus，包含约160亿图像，3万亿文本词元，相比现有开源图文数据集，图像数量扩大了三倍，文本数量扩大了十倍。

首创渐进式对齐训练，实现首个与大模型对齐的视觉基础模型

传统的预训练范式直接使用大模型+大数据进行一步到位训练，需要大量的算力资源。为了提高训练效率，研究团队首创了渐进式训练策略，先利用小模型在海量带噪数据上进行高效预训练，然后再使用大模型在较少高质量精选数据上进行高效对齐，模型"从小到大"，数据"从粗到精"，仅需20%的算力资源即可取得同等效果。采用这种训练策略，我们实现了首个与大模型对齐的视觉基础模型，同时，我们的多模态大模型，展现出卓越的性能，在MathVista（数学）、AI2D（科学图表）、MMBench（通用视觉问答）、MM-NIAH（多模态长文档）等评测上可比肩GPT-4o、Gemini 1.5 Pro等闭源商用大模型。