多模态基础模型-InternVideo2:Scaling Video Foundation Models for Multimodal Video Understanding

一、TL;DR

  1. 模型训练上,设计了一种渐进式的训练方法,将掩码视频建模、跨模态对比学习和下一个token预测统一起来,
  2. 数据质量上,强调时空一致性,通过语义分割视频并生成视频-音频-caption,改善了视频和文本之间的对齐
  3. 将参数量扩展到了60亿,视频识别、视频-文本任务、音频和以及视频中心对话取得sota

二、方法与训练

2.1 渐进式对齐训练

Internvideo2是通过渐进式训练方案构建的(小公司的人看看就行了,我是直接tune head),具体如下所示:

  1. 通过未掩码重建捕捉时空结构(only video)
  2. 与其他模态的语义对齐(text/autio/img)
  3. 通过下一个video token预测来增强模型的开放式对话能力(LLMs/MLLMS)

2.1.1  stage1:Reconstructing Unmasked Video Tokens

本阶段,模型学习重建unmasked的video token,使视频编码器能够发展基本的时空感知能力。为了估计已经存在的tokens,采用不同方式训练的视觉编码器InternVit作为代理。此时只有单模态:

具体怎么做?

  1. 使用InternVL-6B和VideoMAEv2-g的方法,通过简单的投影层将未掩码的知识传递给模型。
  2. 训练时,我们将完整视频输入到不同的教师模型中,并在多模态模型InternVL和运动感知模型VideoMAEv2的语义指导下逐帧mask掉掉80%的标记。只对齐未掩码的标记,通过最小化学生模型和教师模型之间的均方误差(MSE)来实现。学习目标是重建剩余的token,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值