在当下,视频无疑是连接我们日常沟通与分享的纽带。据最新数据表明,互联网上超过70%的流量都来源于视频内容,然而,AI大模型做视频理解并非易事,LeCun就曾在访谈中谈及他在视频理解领域数十年的经验心得(阅读详情)。
书生系列大模型是最早在此领域取得突破的大模型之一。2022年,InternVideo已经成在视频理解标杆Kinetics 700和Kinetics400上获得SOTA性能,且成为世界首个在K400上突破90% Top1 accuracy的大模型;2023年成为我们超受欢迎的VideoChat:以聊天为中心的通用视频理解新范式的基础模型。最近,上海人工智能实验室携手南京大学、中国科学院深圳先进技术研究院等单位,共同探索并开源了新一代的视频理解大模型——InternVideo2。这款模型在6B的视频编码器和超过4亿视觉样本的训练下,通过渐进式学习显著提升了视频语义理解和世界建模能力,能够进行长视频理解和过程性推理,在具身智能、自动驾驶等重要领域,具有良好的应用前景。
InternVideo2在Kinetics 400获得92.1% Top1 accuracy ,在60余个视频/音频相关的任务上SOTA,在Perception Test、EgoSchema、MVbench等多模态视频大模型能力评测上,性能超越或比肩GPT4V、Gemini、Llama3V等,具备更强的动态场景语义感知与时序内容理解能力,支持动态语义的精确解析、时序内容关联与综合理解、复杂时序关系推理与预测,能够理解过程性知识(人类技能),实现动作或事件的时序分解。
点击观看视频展示👇
来和AI视频对话吧!InternVideo2 开源视频理解大模型_哔哩哔哩_bilibili
来和AI视频对话吧!InternVideo2 开源视频理解大模型_哔哩哔哩_bilibiliwww.bilibili.com/video/BV1dXYTesEMj/?spm_id_from=333.999.0.0
添加图片注释,不超过 140 字(可选)
🚀开源链接-进入后点击InternVideo2:
📃论文链接:
https://arxiv.org/abs/2403.15377
👉试用Demo:
❤️加群:添加小助手(gvxiaozhushou),发送“视频”
能力展现:多个场景性能最佳的视频理解大模型,掌握从基础感知,开放问答,到复杂推理
InternVideo2在60个主流的视频理解任务上取得了世界领先性能,涵盖了从经典动作识别到视频语音任务,再到高阶视频对话问答的任务。相较于2022年发布的InternVideo,InternVideo2具备更强的动态场景语义感知与时序内容理解能力,支持动态语义的精确解析、时序内容关联与综合理解、复杂时序关系推理与预测,能够理解过程性知识(人类技能),实现动作或事件的时序分解。正如演示视频(或下图)所示,InternVideo2可以更精细地描述一个过程的先后细节动作。这使其在多模态视频交互、视频内容分析、自动视频标注和视频检索等多个领域具有广泛的应用潜力,为构建多模态世界基础模型和通用具身智能提供技术支持。
技术创新:Scaling law指导下的三阶段渐进式视频预训练范式
在Scaling law的指导下,InternVideo2在参数规模 (视频编码器60亿参数)、数据规模(3亿图文对+1亿视频文本对)和标注质量(通过文本对齐实现视频、语音和字幕的协调)三个方面上达到了新的高度。
在技术创新上,采用渐进式训练方案构建。学习过程分为三个阶段:(1)通过掩码重建捕捉时空结构,(2)跨模态的语义对齐,(3)通过下一个词元预测增强其开放式对话能力。在初始阶段,模型学习重建未掩码的视频词元,使视频编码器具备基本的时空感知能力。为估计现有词元,采用了不同训练的视觉编码器(InternViT和VideoMAE-g)作为代理。在跨模态学习第二阶段,架构扩展为包含音频和文本编码器。这不仅改善了视频与文本之间的对齐,还赋予InternVideo2处理视频-音频任务的能力。通过整合这些额外模态,模型对视频的理解得到了丰富,并与其语义对齐。最后,在下一个词元预测阶段,构建了一个以视频为中心的对话系统,以进一步调整InternVideo2。通过将InternVideo2与大语言模型连接,视频编码器通过下一个词元预测训练进一步更新,增强了其在开放式任务(如视频问答和视频描述)中的能力。
在数据处理上,我们构建了包含4亿多数据项的大规模多模态数据集,其中对视频进行了精准的时序分割,提升数据的时空一致性,并通过新的多模态标注系统从视频、音频、语音多角度进行标注,提升标注的模态一致性,从而增强模型的训练质量和泛化能力。
添加图片注释,不超过 140 字(可选)
开源生态建设: 从基础视频表征模型到多模态对话模型
我们致力于开放共享,InternVideo2的模型从基础视频表征模型到多模态对话模型一应俱全。除了发布InternVideo2每个阶段的模型,我们还提供了常用的对话模型和一些专用的小模型,以便社区更好地体验和使用我们的研究成果。目前,InternVideo2的全系列模型和相关代码已经全面开源,并且提供了Demo供公众试用。希望各界朋友能够亲自体验demo、使用InternVideo模型,并向我们反馈宝贵意见,共同推进大模型落地应用!
🚀开源链接-进入后点击InternVideo2:
📃论文链接:
https://arxiv.org/abs/2403.15377
👉试用Demo:
❤️加群:添加小助手(gvxiaozhushou),发送“视频”
关注OpenGVLab 获取通用视觉团队最新资讯
🔗开源主页:https://github.com/OpenGVLab
📮官方邮箱:opengvlab@pjlab.org.cn
😊转载,加群,咨询博士招生等,私信GV小助手(ID:gvxiaozhushou)