InternVL 2.0:多模态大模型新标杆

7月4日下午,世界人工智能大会科学前沿论坛, 我们发布了InternVL 2.0,中文名称为"书生·万象”,相比业内公认的最强多模态大模型InternVL-1.5,能力又上新台阶。它在关键评测指标比肩国际顶尖商用闭源模型,支持图像、视频、文本、语音、三维、医疗多种模态,百种下游任务性能媲美任务专用模型。 同时,书生万象也是国内首个在MMMU(多学科问答)上突破60的模型,堪称开源多模态大模型性能新标杆。数学基准MathVista的测试中、书生万象的得分为66.3%,显著高于其他闭源商业模型和开源模型。在通用图表基准ChartQA、文档类基准DocVQA、信息图表类基准InfographicVQA中以及通用视觉问答基准MMBench (v1.1)中,书生万象也取得了最先进(SOTA)的表现。科学图表基准AI2D的测试中,书生万象大幅领先其他优秀的开源模型,并与商业闭源模型不相上下

图中红色数字为所有已知模型最先进(SOTA)的表现,可见InternVL 2.0能力比1.5版本有了全面提升。

代码开源/模型下载/试用/微调/部署 (请给我们一个star支持吧^.^)

https://github.com/OpenGVLab/InternVL

试用Demo:

InternVL 2.0 demoicon-default.png?t=N7T8https://internvl.opengvlab.com/司南评测最强的大模型 InternVL2-Llama3-76B

https://huggingface.co/OpenGVLab/InternVL2-Llama3-76B

端侧小模型

1B\2B\4B\8B 等不同参数的小模型,单卡可部署!

https://huggingface.co/OpenGVLab/InternVL2-8B

社群:

微信搜索gvxiaozhushou,回复“InternVL”等待进群

为什么要做多模态大模型

2022年,OpenAI的ChatGPT引爆大语言模型(LLM)热潮,人工智能大模型行业风起云涌,国外顶尖机构相继跟进,LLaMa、Cluade、Mixtral、Qwen、ChatGLM、Kimi、浦语等优秀的大语言模型竞争日渐胶着,能力不分高下。然而,人工智能的能力不能止于文字,面对万象缤纷的真实世界,LLM似乎难以领会。

图灵奖得主Yann LeCun曾在一次采访中指出,为什么猫狗没有语言,但对世界的理解却比任何 LLM 都要好?这个问题17 世纪的 Sensim 学派哲学家可以回答:因为没有感知就没有认知。生物在5亿年进化出视觉 ,1万年前才有智人语言/现代人语言,视觉的信息带宽(约20MB/s)远高于语言信息带宽(约12bytes/s) 。LeCun 认为,没有视觉就无法建立对世界有深刻理解的模型,纽约大学助理教授谢赛宁则直言“现有的单纯的语言模型是一个盲人摸象般被遮蔽了双眼的博学的系统”。

InternVL对摄影作品的构图分析(详情见本文第4部分:真实世界感知实例)

就这样,多模态来到人工智能的浪潮之巅。国际顶尖机构相继入局,谷歌推出Gemini Pro1.5,OpenAI推出GPT-4O等商业闭源模型。书生大模型从视觉生根,一路走来,如今进化为书生·万象多模态大模型。“万象”代表我们对多模态大模型的愿景,即理解真实世界一切事物和景象,实现全模态全任务的通用智能。它涵盖图像,视频,文字,语音、三维点云等多种模态,首创渐进式对齐训练,实现了首个与大语言模型对齐的视觉基础模型,通过模型”从小到大”、数据”从粗到精"的渐进式的训练策略,以1/5成本完成了大模型的训练。它在有限资源下展现出卓越的性能表现,横扫国内外开源大模型,媲美国际顶尖商业模型,同时也是国内首个在MMMU(多学科问答)上突破60的模型。它在数学、图表分析、OCR等任务中表现优异,具备处理复杂多模态任务、真实世界感知方面的强大能力,是当之无愧的最强多模态开源大模型。

三年演进,多模态先行者的实至名归之路

图片

2021年推出国内首个广泛覆盖多种视觉任务的大模型书生。2022年发布通用视觉大模型InternImage,实现一个模型在COCO 物体检测,ImageNet图像分类等视觉标杆任务上同时达到世界最佳性能。 2023年底 , 图文大模型InternVL 1.0以1/3参数量超谷歌视觉模型ViT-22B,减小80%训练成本。2023年5月发布的InternVL-1.5版本智源评测(点击了解)、司南评测(点击了解)等权威榜单认证,性能比超国际上的一系列闭源模型,如Open AI公司的GPT-4V、谷歌Gemini Pro等。在国际最大的人工智能开源社区HuggingFace 开源后,即登顶模型下载量增长趋势榜单,位居首位达到一个月之久,并迅速跻身视觉语言基础模型总下载量榜单上排列前10(点击了解)。如今,我们隆重推出书生·万象多模态大模型(InternVL 2.0)。关键评测指标比肩国际顶尖商用闭源模型,支持图像、视频、文本、语音、三维、医疗多种模态,百种下游任务性能媲美任务专用模型。

更少资源、更高性能 世界领先不止于数值

数值表:关键评测优于国际顶尖商业模型

书生·万象在处理复杂多模态数据方面具有强大能力,尤其是在数学、科学图表、通用图表、文档、信息图表和OCR等任务中表现优异。书生·万象在多个基准测试中表现出色,书生·万象多模态大模型是国内首个在MMMU(多学科问答)上突破60的模型,在视觉基准MathVista的测试中、书生·万象的得分为66.3%,显著高于其他闭源商业模型和开源模型。在通用图表基准ChartQA、文档类基准DocVQA、信息图表类基准InfographicVQA中以及通用视觉问答基准MMBench (v1.1)中,书生万象也取得了最先进的表现。在科学图表基准AI2D的测试中,书生万象大幅领先其他优秀的开源模型,并与商业闭源模型不相上下。

数值对比表

通专融合 万象理解万物

图片

书生万象具有千亿规模参数,支持图像,视频,文字,语音、三维点云等模态。为了使模型能够支持丰富的输出格式,书生万象首次使用了向量链接技术,链接各领域专用解码器,打通梯度传输链路,实现通专融合,支持检测、分割、图像生成、视觉问答等百种细分任务,性能媲美各领域的专家模型。为了训练书生万象模型,我们从各类来源构建了最大图文交错数据集OmniCorpus,包含约160亿图像,3万亿文本词元,相比现有开源图文数据集 ,图像数量扩大了三倍,文本数量扩大了十倍。

首创渐进式对齐训练,实现首个与大模型对齐的视觉基础模型

图片

传统的预训练范式直接使用大模型+大数据进行一步到位训练,需要大量的算力资源。为了提高训练效率,研究团队首创了渐进式训练策略,先利用小模型在海量带噪数据上进行高效预训练,然后再使用大模型在较少高质量精选数据上进行高效对齐,模型"从小到大",数据"从粗到精",仅需20%的算力资源即可取得同等效果。采用这种训练策略,我们实现了首个与大模型对齐的视觉基础模型,同时,我们的多模态大模型,展现出卓越的性能,在MathVista(数学)、AI2D(科学图表)、MMBench(通用视觉问答)、MM-NIAH(多模态长文档)等评测上可比肩GPT-4o、Gemini 1.5 Pro等闭源商用大模型。

真实世界感知实例展示

检测样例展示

加大一些难度测试万象的视觉能力。输入一张车流密集的交通图,让它检测出所有车辆、行人和交通灯,它很快给出对应物体的坐标和检测框。亲爱的读者朋友仔细可以找找看,交通灯一共有几个?

图片

行人和车辆的检测,对于InternVL 2.0来说是一般任务

图片

交通灯有点难度,模型给出的检测结果是5个。远处的2个不容易看到,我们做了放大效果图,看来InternVL的视力很不错呢!

图片

目前多模态技术仍处于早期发展阶段,距离人类专家性能还相距甚远,发展空间潜力巨大。上海人工智能实验室致力于开源和开放的研究,旨在推动原创技术的发展,带来技术革新和行业进步。多模态大模型必将为AI发展带来比LLM更高的浪潮,希望各界同行与我们一起探索多模态大模型关键问题,共建多模态大模型生态!


代码开源/模型下载链接(点击“阅读原文”直达):

https://github.com/OpenGVLab/InternVL

试用Demo:

进入https://github.com/OpenGVLab/InternVL,点击“Chat Demo”,目前仅提供加固过滤版模型试用,输出效果可能与文中展示有误差

OmniCorpus开源/数据下载链接:(目前规模最大的图文交错数据集)

https://github.com/OpenGVLab/OmniCorpus

MM-NIAH开源/数据下载链接:(首个针对多模态长文档理解能力的评测基准)

https://github.com/OpenGVLab/MM-NIAH

关注OpenGVLab 获取通用视觉团队最新资讯

🔗开源链接:https://github.com/OpenGVLab

📮官方邮箱:opengvlab@pjlab.org.cn

😊加入InternVL交流,请私信GV小助手并回复“InternVL”

《大模型技术进化论:多模态模型综述》是一篇系统阐述多模态模型技术进化的综述性论文。多模态模型是指通过整合多种不同的数据形式和类型,构建出更复杂、更完整的模型,以提高模型的表现和性能。 该论文首先介绍了大模型技术的背景和发展动力。随着数据规模的快速增长和多源数据的丰富性,传统的单一模态模型已经面临着一系列的挑战,无法完全适应现实世界中的复杂情况。因此,多模态模型的出现成为了解决这一问题的有效手段。 随后,论文针对多模态模型的构建过程进行了详细的讨论。首先介绍了多模态数据的采集与预处理方法,包括各种传感器和设备的应用,以及数据对齐和归一化等技术。然后,论文详细介绍了多模态特征提取、融合和表示学习方法,包括传统的特征提取算法和深度学习方法等。 接着,论文重点讨论了多模态模型在各个领域的应用。例如,在计算机视觉领域,多模态模型能够通过融合图像和文本数据,实现更准确的图像分类和目标检测。在自然语言处理领域,多模态模型能够通过融合文本和语音数据,实现更准确的情感分析和语音识别。此外,还介绍了多模态模型在医学、金融、推荐系统等领域的应用。 最后,论文总结了多模态模型技术的优势和挑战,并展望了未来的研究方向。多模态模型技术的优势在于可以综合利用不同数据源的信息,提高模型的鲁棒性和泛化能力。然而,多模态模型技术面临着数据集规模和计算复杂度的挑战,需要进一步研究和改进相应的算法和技术。 综上所述,《大模型技术进化论:多模态模型综述》通过系统的介绍了多模态模型技术的构建过程、应用领域和发展前景,对相关研究和应用人员具有重要的参考价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值