InternVideo2 视频理解大模型已开源,更强VideoChat来袭!

作者 @王毅 @Sakura.D @何逸楠@王利民

在当下,视频无疑是连接我们日常沟通与分享的纽带。据最新数据表明,互联网上超过70%的流量都来源于视频内容,然而,AI大模型做视频理解并非易事,LeCun就曾在访谈中谈及他在视频理解领域数十年的经验心得(阅读详情)。

书生系列大模型是最早在此领域取得突破的大模型之一。2022年,InternVideo已经成在视频理解标杆Kinetics 700和Kinetics400上获得SOTA性能,且成为世界首个在K400上突破90% Top1 accuracy的大模型;2023年成为我们超受欢迎的VideoChat:以聊天为中心的通用视频理解新范式的基础模型。最近,上海人工智能实验室携手南京大学、中国科学院深圳先进技术研究院等单位,共同探索并开源了新一代的视频理解大模型——InternVideo2。这款模型在6B的视频编码器和超过4亿视觉样本的训练下,通过渐进式学习显著提升了视频语义理解和世界建模能力,能够进行长视频理解和过程性推理,在具身智能、自动驾驶等重要领域,具有良好的应用前景。

InternVideo2在Kinetics 400获得92.1% Top1 accuracy ,在60余个视频/音频相关的任务上SOTA,在Perception Test、EgoSchema、MVbench等多模态视频大模型能力评测上,性能超越或比肩GPT4V、Gemini、Llama3V等,具备更强的动态场景语义感知与时序内容理解能力,支持动态语义的精确解析、时序内容关联与综合理解、复杂时序关系推理与预测,能够理解过程性知识(人类技能),实现动作或事件的时序分解。

点击观看视频展示👇

来和AI视频对话吧!InternVideo2 开源视频理解大模型_哔哩哔哩_bilibili

来和AI视频对话吧!InternVideo2 开源视频理解大模型_哔哩哔哩_bilibili​www.bilibili.com/video/BV1dXYTesEMj/?spm_id_from=333.999.0.0

添加图片注释,不超过 140 字(可选)

🚀开源链接-进入后点击InternVideo2:

GitHub - OpenGVLab/InternVideo: [ECCV2024] Video Foundation Models & Data for Multimodal Understanding

📃论文链接:

https://arxiv.org/abs/2403.15377

👉试用Demo:

https://vchat.opengvlab.com

❤️加群:添加小助手(gvxiaozhushou),发送“视频”

能力展现:多个场景性能最佳的视频理解大模型,掌握从基础感知,开放问答,到复杂推理

InternVideo2在60个主流的视频理解任务上取得了世界领先性能,涵盖了从经典动作识别到视频语音任务,再到高阶视频对话问答的任务。相较于2022年发布的InternVideo,InternVideo2具备更强的动态场景语义感知与时序内容理解能力,支持动态语义的精确解析、时序内容关联与综合理解、复杂时序关系推理与预测,能够理解过程性知识(人类技能),实现动作或事件的时序分解。正如演示视频(或下图)所示,InternVideo2可以更精细地描述一个过程的先后细节动作。这使其在多模态视频交互、视频内容分析、自动视频标注和视频检索等多个领域具有广泛的应用潜力,为构建多模态世界基础模型和通用具身智能提供技术支持。

技术创新:Scaling law指导下的三阶段渐进式视频预训练范式

在Scaling law的指导下,InternVideo2在参数规模 (视频编码器60亿参数)、数据规模(3亿图文对+1亿视频文本对)和标注质量(通过文本对齐实现视频、语音和字幕的协调)三个方面上达到了新的高度。

在技术创新上,采用渐进式训练方案构建。学习过程分为三个阶段:(1)通过掩码重建捕捉时空结构,(2)跨模态的语义对齐,(3)通过下一个词元预测增强其开放式对话能力。在初始阶段,模型学习重建未掩码的视频词元,使视频编码器具备基本的时空感知能力。为估计现有词元,采用了不同训练的视觉编码器(InternViT和VideoMAE-g)作为代理。在跨模态学习第二阶段,架构扩展为包含音频和文本编码器。这不仅改善了视频与文本之间的对齐,还赋予InternVideo2处理视频-音频任务的能力。通过整合这些额外模态,模型对视频的理解得到了丰富,并与其语义对齐。最后,在下一个词元预测阶段,构建了一个以视频为中心的对话系统,以进一步调整InternVideo2。通过将InternVideo2与大语言模型连接,视频编码器通过下一个词元预测训练进一步更新,增强了其在开放式任务(如视频问答和视频描述)中的能力。

在数据处理上,我们构建了包含4亿多数据项的大规模多模态数据集,其中对视频进行了精准的时序分割,提升数据的时空一致性,并通过新的多模态标注系统从视频、音频、语音多角度进行标注,提升标注的模态一致性,从而增强模型的训练质量和泛化能力。

添加图片注释,不超过 140 字(可选)

开源生态建设: 从基础视频表征模型到多模态对话模型

我们致力于开放共享,InternVideo2的模型从基础视频表征模型到多模态对话模型一应俱全。除了发布InternVideo2每个阶段的模型,我们还提供了常用的对话模型和一些专用的小模型,以便社区更好地体验和使用我们的研究成果。目前,InternVideo2的全系列模型和相关代码已经全面开源,并且提供了Demo供公众试用。希望各界朋友能够亲自体验demo、使用InternVideo模型,并向我们反馈宝贵意见,共同推进大模型落地应用!

🚀开源链接-进入后点击InternVideo2:

GitHub - OpenGVLab/InternVideo: [ECCV2024] Video Foundation Models & Data for Multimodal Understanding

📃论文链接:

https://arxiv.org/abs/2403.15377

👉试用Demo:

https://vchat.opengvlab.com

❤️加群:添加小助手(gvxiaozhushou),发送“视频”


关注OpenGVLab 获取通用视觉团队最新资讯

🔗开源主页:https://github.com/OpenGVLab

📮官方邮箱:opengvlab@pjlab.org.cn

😊转载,加群,咨询博士招生等,私信GV小助手(ID:gvxiaozhushou)

要使用Vue和WebRTC实现音视频通话,您可以使用WebRTC API。以下是一些步骤: 1. 首先,您需要创建一个新的Vue项目,您可以使用Vue CLI来创建。 2. 接下来,您需要使用WebRTC API来实现音视频通话。在Vue中,您可以使用Vue插件来轻松地使用WebRTC API。例如,您可以使用vue-webrtc插件。 3. 您需要在Vue组件中使用vue-webrtc插件。您可以在组件的模板中放置一个video标签,该标签将用于显示视频流。使用vue-webrtc插件,您可以轻松地与其他用户进行音视频通话。 4. 在Vue组件中,您可以使用WebRTC API来处理音视频流。您可以使用getUserMedia()函数获取本地视频流,并使用RTCPeerConnection对象将视频流发送到远程用户。使用RTCPeerConnection对象,您可以建立点对点连接,并在WebRTC流之间进行通信。 5. 最后,您需要使用Vue的事件来处理音视频通话中的各种情况,例如在连接断开时显示错误消息等。 这是一个简单的示例代码,演示如何使用Vue和WebRTC API实现音视频通话: ``` <template> <div> <video ref="localVideo" autoplay></video> <video ref="remoteVideo" autoplay></video> </div> </template> <script> import VueWebRTC from 'vue-webrtc' export default { name: 'VideoChat', components: { VueWebRTC }, data () { return { localStream: null, remoteStream: null, peerConnection: null } }, mounted () { this.startLocalVideo() }, methods: { startLocalVideo () { navigator.getUserMedia({ video: true, audio: true }, (stream) => { this.localStream = stream this.$refs.localVideo.srcObject = stream this.setupPeerConnection() }, (error) => { console.error(error) }) }, setupPeerConnection () { this.peerConnection = new RTCPeerConnection() this.peerConnection.onicecandidate = (event) => { if (event.candidate) { // send candidate to remote user } } this.peerConnection.onaddstream = (event) => { this.remoteStream = event.stream this.$refs.remoteVideo.srcObject = event.stream } this.peerConnection.addStream(this.localStream) // create offer and send to remote user } } } </script> ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值