InternVideo2 视频理解大模型已开源，更强VideoChat来袭！

最新推荐文章于 2024-09-30 08:36:50 发布

OpenGVLab

最新推荐文章于 2024-09-30 08:36:50 发布

阅读量770

点赞数 25

分类专栏：视频理解文章标签：音视频人工智能

本文链接：https://blog.csdn.net/OpenGVLab/article/details/142528819

版权

视频理解专栏收录该内容

3 篇文章 0 订阅

订阅专栏

作者 @王毅 @Sakura.D @何逸楠 @王利民

在当下，视频无疑是连接我们日常沟通与分享的纽带。据最新数据表明，互联网上超过70%的流量都来源于视频内容，然而，AI大模型做视频理解并非易事，LeCun就曾在访谈中谈及他在视频理解领域数十年的经验心得（阅读详情）。

书生系列大模型是最早在此领域取得突破的大模型之一。2022年，InternVideo已经成在视频理解标杆Kinetics 700和Kinetics400上获得SOTA性能，且成为世界首个在K400上突破90% Top1 accuracy的大模型；2023年成为我们超受欢迎的VideoChat：以聊天为中心的通用视频理解新范式的基础模型。最近，上海人工智能实验室携手南京大学、中国科学院深圳先进技术研究院等单位，共同探索并开源了新一代的视频理解大模型——InternVideo2。这款模型在6B的视频编码器和超过4亿视觉样本的训练下，通过渐进式学习显著提升了视频语义理解和世界建模能力，能够进行长视频理解和过程性推理，在具身智能、自动驾驶等重要领域，具有良好的应用前景。

InternVideo2在Kinetics 400获得92.1% Top1 accuracy ，在60余个视频/音频相关的任务上SOTA，在Perception Test、EgoSchema、MVbench等多模态视频大模型能力评测上，性能超越或比肩GPT4V、Gemini、Llama3V等，具备更强的动态场景语义感知与时序内容理解能力，支持动态语义的精确解析、时序内容关联与综合理解、复杂时序关系推理与预测，能够理解过程性知识（人类技能），实现动作或事件的时序分解。

点击观看视频展示👇

来和AI视频对话吧！InternVideo2 开源视频理解大模型_哔哩哔哩_bilibili

来和AI视频对话吧！InternVideo2 开源视频理解大模型_哔哩哔哩_bilibiliwww.bilibili.com/video/BV1dXYTesEMj/?spm_id_from=333.999.0.0

添加图片注释，不超过 140 字（可选）

🚀开源链接-进入后点击InternVideo2：

GitHub - OpenGVLab/InternVideo: [ECCV2024] Video Foundation Models & Data for Multimodal Understanding

📃论文链接：

https://arxiv.org/abs/2403.15377

👉试用Demo：

https://vchat.opengvlab.com

❤️加群：添加小助手（gvxiaozhushou）,发送“视频”

能力展现：多个场景性能最佳的视频理解大模型，掌握从基础感知，开放问答，到复杂推理

InternVideo2在60个主流的视频理解任务上取得了世界领先性能，涵盖了从经典动作识别到视频语音任务，再到高阶视频对话问答的任务。相较于2022年发布的InternVideo，InternVideo2具备更强的动态场景语义感知与时序内容理解能力，支持动态语义的精确解析、时序内容关联与综合理解、复杂时序关系推理与预测，能够理解过程性知识（人类技能），实现动作或事件的时序分解。正如演示视频（或下图）所示，InternVideo2可以更精细地描述一个过程的先后细节动作。这使其在多模态视频交互、视频内容分析、自动视频标注和视频检索等多个领域具有广泛的应用潜力，为构建多模态世界基础模型和通用具身智能提供技术支持。

技术创新：Scaling law指导下的三阶段渐进式视频预训练范式

在Scaling law的指导下，InternVideo2在参数规模 (视频编码器60亿参数)、数据规模（3亿图文对+1亿视频文本对）和标注质量（通过文本对齐实现视频、语音和字幕的协调）三个方面上达到了新的高度。

在技术创新上，采用渐进式训练方案构建。学习过程分为三个阶段：（1）通过掩码重建捕捉时空结构，（2）跨模态的语义对齐，（3）通过下一个词元预测增强其开放式对话能力。在初始阶段，模型学习重建未掩码的视频词元，使视频编码器具备基本的时空感知能力。为估计现有词元，采用了不同训练的视觉编码器（InternViT和VideoMAE-g）作为代理。在跨模态学习第二阶段，架构扩展为包含音频和文本编码器。这不仅改善了视频与文本之间的对齐，还赋予InternVideo2处理视频-音频任务的能力。通过整合这些额外模态，模型对视频的理解得到了丰富，并与其语义对齐。最后，在下一个词元预测阶段，构建了一个以视频为中心的对话系统，以进一步调整InternVideo2。通过将InternVideo2与大语言模型连接，视频编码器通过下一个词元预测训练进一步更新，增强了其在开放式任务（如视频问答和视频描述）中的能力。

在数据处理上，我们构建了包含4亿多数据项的大规模多模态数据集，其中对视频进行了精准的时序分割，提升数据的时空一致性，并通过新的多模态标注系统从视频、音频、语音多角度进行标注，提升标注的模态一致性，从而增强模型的训练质量和泛化能力。

添加图片注释，不超过 140 字（可选）

开源生态建设：从基础视频表征模型到多模态对话模型

我们致力于开放共享，InternVideo2的模型从基础视频表征模型到多模态对话模型一应俱全。除了发布InternVideo2每个阶段的模型，我们还提供了常用的对话模型和一些专用的小模型，以便社区更好地体验和使用我们的研究成果。目前，InternVideo2的全系列模型和相关代码已经全面开源，并且提供了Demo供公众试用。希望各界朋友能够亲自体验demo、使用InternVideo模型，并向我们反馈宝贵意见，共同推进大模型落地应用！

🚀开源链接-进入后点击InternVideo2：

GitHub - OpenGVLab/InternVideo: [ECCV2024] Video Foundation Models & Data for Multimodal Understanding

📃论文链接：

https://arxiv.org/abs/2403.15377

👉试用Demo：

https://vchat.opengvlab.com

❤️加群：添加小助手（gvxiaozhushou）,发送“视频”

关注OpenGVLab 获取通用视觉团队最新资讯

🔗开源主页：https://github.com/OpenGVLab

📮官方邮箱：opengvlab@pjlab.org.cn

😊转载，加群，咨询博士招生等，私信GV小助手（ID:gvxiaozhushou）