ICCV 2023 | Unmasked Teacher:高效训练视频基模型,代码模型已开源

1f6ea8b11c45db2d78e02e6c248f25e4.gif

©作者 | 黎昆昌

单位 | 上海AI Lab

研究方向 | 视频行为识别

Unmasked Teacher 旨在高效地训练视频基模型,方法结合了以往视频基模型设计的优点,倡议充分利用图像基模型作为教师,通过掩码学习的方式节省视频训练开销。最终仅用 32 张 80G A100 从头训练 6 天,我们的 ViT-L/16 在流行单模态和多模态 benchmark 上都取得了优异的结果。代码、脚本和模型已开源。

0f37d3aaa8f0a4ddeed4c9de235274fc.png

论文标题:

Unmasked Teacher: Towards Training-Efficient Video Foundation Models

论文地址:

https://arxiv.org/abs/2303.16058

代码地址:

https://github.com/OpenGVLab/unmasked_teacher


fd2803dde77a388e4db69e5d1c601e81.png

Motivation

我们首先回顾已有的视频基模型训练方式。最流行的方式是基于图像基础模型二次开发,比如MTV[1]和VideoCoCa[2],以及我们之前探究的UniFormerV2[3]。二次开发的方法在图像基础模型上额外插入时序建模模块,引入二次视频预训练,以此提升下游能力,但这种方法有三大缺陷: 

1. 由于视频数据的相对稀缺,简单的二次视频预训练(post-pretraining)会破坏从图像基模型继承的泛化性。在我们之前做 InternVideo[4]的实验里,模型的 zero-shot 性能会在二次预训练过程中不断变差,我们当时的考虑是视频文本太稀缺,干脆锁住 text encoder,利用 wise-ft 的思想保持模型的泛化性。 

2. 再者,图像预训练会带来过强的空间初始化,这导致视频模型非常“短视”——更偏向从单帧场景中感知行为(场景相关),比如“骑马”中的“草地”。反倒忽视了建立全局时空关系,很难去处理和定位时序相关行为,比如“开”和“关”(时序相反行为也会相反)。一个直观的数据就是,UniFormerV2 在 something-something 数据集,相对 VideoMAE 较差,迁移到 AVA 时空检测效果也不理想。 

3. 最后,二次开发的方式限制了模型进一步 scale up,在没有更大的图像基模型之前,要放大视频模型几乎不可能。 

另外一种流行的方式为 VideoMAE[5] 引入的视频掩码预训练,VideoMAE 最强大的能力在于,利用有限的训练数据从头训练强时序模型,在 something-something 和 AVA 上结果十分惊艳。但这种方式也存在弊端: 

1. 高效的数据效率和时序建模能力需要经过漫长的预训练,比如 something-something 上需要 2400 轮迭代。 

2. 低层的 pixel-level 重建任务,与高层的跨模态对齐任务(图文对比、图文匹配等)存在冲突,导致掩码预训练模型在多模态任务较差,meta 的论文 FLIP[6] 中也有相似的发现。 

3. VideoMAE 依赖额外的 decoder 处理所有 token,当模型放大时,训练开销会急剧变大(PS. VideoMAE V2[7] 采取的一个解决方案是 double mask,在解码器中也引入 mask)。

在这个工作里,我们结合了现有方法的有点,探究了一种高效训练强时序模型的方案。我们不直接迁移图像基模型(如 CLIP),而是将其当做非掩码教师,从头训练简单的 ViT 模型。为了降低训练开销,我们掩码处理了大部分低语义 token,仅对剩下的非掩码 token 进行处理,并通过线性映射层与教师对齐。这种方法具有三大优点: 

1. 具备了掩码训练的高效数据利用率,同时对多模态任务友好; 

2. 仅线性层对齐非掩码 token,大大降低了显存开销(仅占 VideoMAE 的36%); 

3. 对场景相关行为和时序相关行为,均具备优异的处理能力。 

4be5834298db115d04c680b32978fd36.png

▲ 渐进式非掩码训练框架

渐进式非掩码训练框架 针对繁杂的视频任务,我们提出了一套渐进式的预训练框架(如上图)。在第一阶段,我们仅利用少量视频数据进行掩码训练,得到的模型用于处理纯视频任务,如识别和检测。在第二阶段,我们结合开源的文本编码器(BERT),利用图文数据进行多模态训练,得到的模型可以处理复杂的视频-语言任务。

在两个阶段,我们都引入了非掩码教师,加快收敛的同时大大节省了训练开销。随着越来越多图像和自然语言基模型的开源,我们简单的框架可以很容易地放缩模型规模。

最终仅利用开源的资源训练,我们的 ViT-L/16 在多个任务取得了优异性能,包括行为识别(K400 90.6% top-1 acc),时空定位(AVA 39.8 mAP),视频检索(MSRVTT 58.8% R@1)和视频问答(MSRVTT-QA 47.1% acc)。相比 CoCa 使用 2048 块 CloudTPUv4 训练 5 天,我们的模型节省了近 70 倍碳排放。

8fb913612fa014981daa3b6ae8d692a1.png

Method

b9f24e7cc12697fbdc80ad0f5b4ddf53.png

▲ 学生结构

结构

对于教师,在本论文实验里,考虑到 CLIP 图文训练得到的丰富语义信息,我们采用 CLIP 的视觉编码器,有利于我们后续的多模态训练。为了充分传承教师的知识,我们保持了它的空间结构,逐帧处理视频信息。 

对于学生,我们采用简单的 ViT 模型,为了促使非掩码 token 之间的交流,我们使用时空联合注意力机制。为了更好地和教师模型对齐,我们在 patch embedding 种不对时序维度下采样,保证可以逐 token 对齐信息。 

掩码 

与 VideoMAE 类似地,我们采样较高的掩码比例(如 80%)来减小视频冗余。 

但考虑到过于激进的随机掩码可能只保留背景 token,无意义的信息会干扰教师信息蒸馏,我们借鉴了 MaskAlign 中的语义掩码策略,逐帧进行语义掩码,这样包含重要信息的 token 会更大概率地被保留。具体地,我们使用 CLIP-ViT 最后一层的 class token 对空间 token 的 affinity matri 作为重要性分数,使用多项式分布生成掩码概率。 

再者,我们采用稀疏采样策略,增大帧间间隔,保证更复杂的上下文信息,从而促使模型对非掩码对象建立更长时的时空关联。 

目标

对于教师,我们逐帧输入所有 token,得到的输出,送入 CLIP 预训练时对齐不同模态的 projection 层,得到最终对齐的目标。对于学生,我们仅输入非掩码 token,并通过简单的线性 projection 层对齐。在实验里,我们使用 MSE loss,对齐 L2 正则化的后六层特征。

渐进式训练

在第一阶段,我们仅使用高质量的视频数据进行掩码预训练。在第二阶段我们引入文本编码器和跨模态解码器,使用开源语言大模型进行初始化,并引入额外三种多模态预训练任务。值得一体的是,目前开源的语言模型比图像模型更多样且规模更大。如最大的 OPT 模型有 175B 参数,而 ViT-G 只有 1.8B 参数。 

Unmasked Token Alignment: 两阶段均引入前述的非掩码 token 对齐; 

Video-Text Contrastive Learning: 使用 symmetric contrastive loss,最大化视觉和文本编码器输出之间互信息; 

Video-Text Matching: 对跨模态解码器输出进行分类,判断视觉文本是否匹配,采用 binary cross-entropy loss,额外引入 hard negative mining; 

Masked Language Modeling: 使用视觉信息辅助,基于可见文本恢复掩码文本 token。我们采用了 BERT 的掩码策略,但 mask 了 50% 的文本 token。

0d70fc17dae7857d85f1ec52647f9921.png

Traning Setting


数据集

1. 在第一阶段,我们采用 UniFormerV2 中提出 Kinetics-710 数据集进行预训练;

2. 在第二阶段,我们引入图文数据作为补充,采用了如下 5M,17M 和 25M 三种训练设置。

0149e7d1b97384c011d0196d3146e1a0.png

▲ 多模态训练数据

对于下游任务,我们使用版本的数据统计如下图所示:

2d499cab06a71ee6fee4249e156e98a2.png

▲ 下游微调数据

在本论文中,我们考虑两种模型设置:(1) UMT-B: ViT-B/16 + BERT-base;(2) UMT-L: ViT-L/16 + BERT-large。分别采用 CLIP-ViT-B/16 和 CLIP-ViT-L/14 作为教师。在第一阶段,我们采用了 VideoMAE 的大部分超参,但稀疏采样 8 帧,batch 2048 训 200 epoch。在 Kinetics-710 上训练,Base 和 Large 分别花费 60 和 90 小时。在第二阶段,我们稀疏采样 4 帧,batch 4096 训练 10 epoch,25M 训练数据分别花费 24 和 40 小时。 

训练超参具体可以见论文的附录 B,详细列举了两阶段训练,以及下游微调的超参。

a1ea747c558b88d8a36d6cae2999fc58.png

Ablation Studies

在消融实验中,对于单模态实验,我们使用 something-something 或者 Kinetics-400 进行预训练;而对于多模态实验,我们使用 Kinetics-710 预训练的模型。在单模态和多模态实验中,我们均在场景相关和时序相关数据集上验证了结果。 

  • 单模态:K400 (场景) + SSV2 (时序),比较 top-1 acc 

  • 多模态:MSRVTT (场景) + SSV2-label (时序),比较平均召回率 (R@1, R@5, R@10) 

训练目标 

b2b5abdbf27edf55f79d0ec477e64b72.png

▲ 训练目标

我们比较了三种训练目标:[U] 非掩码对齐,[M] 掩码恢复(额外引入decoder),MAE 即 VIdeoMAE 中的 pixel 重建(额外引入 decoder)。与 VideoMAE 的 pixel 重建相比,我们的非掩码 token 对齐仅增加了 36% 的内存成本,却显著增强了视频识别和多模态检索性能。然而,在 K400 和 MSRVTT 上将两个目标结合效果并不理想,表明低级重建和高级对齐之间存在一定的冲突。

此外,掩码恢复会产生有害影响,可能是由于高掩码比例使得高层语义恢复过于困难。上述结果证明,我们的方法能有效地学习时序敏感且多模态友好的表征。 

掩码方式、采样方式和时序下采样 

0ac49ef6343fedc3d8b1146c9378a1b9.png

▲ 掩码方式、采样方式和时序下采样

实验表明,语义掩码对于 K400 效果提升明显,与 VideoMAE 中不同,随机掩码较 Tube 掩码在我们的实验中更有效。稀疏采样增加任务难度带来明显收益,去除时序下采样保证 token 对齐关系,同样必要。 

对齐层数 

44d77827cb2ec5717982e7f31f29f469.png

▲ 对齐层数

实验表明,对齐层数对结果有微弱影响,考虑到对齐的显存开销并不大(只需要一层线性层),我们直接对齐后六层来达到最佳性能。 

掩码比例 

40f8a59fd38bf6cc4c71a43886f57deb.png

▲ 掩码比例

对于 K400,掩码比例在 75% 效果最好。对于 SSV2,则是 80% 掩码最有效。我们最终采用 80% 掩码作为默认设置。 

训练轮次 

efe218c366c0d7e3fc73ea245ecc6489.png

▲ 训练轮次

与 VideoMAE 类似,掩码训练轮次越多,微调后的性能越高,并且我们的方法相较 VideoMAE 收敛更快。 

Why work?Better than teacher. 

5071017e6c539c716b992f64c0a75f5f.png

▲ 原因分析

我们进一步探究了 Unmask Teacher 有效的原因,绿色部分为我们精调 CLIP teacher 的结果:这个结果经过了细致的参数调整,比大多数论文中报的结果都要好,也希望后面的论文能够严谨地给出 baseline 比较,得到正确的结论。

1. 时空注意力:在第 2 和第 3 部分中,我们在微调期间对学生使用空间注意力和时空注意力。结果表明,利用联合时空注意力显著提升性能。此外,在预训练期间使用时空注意力进一步提高了性能(第 4 部分),验证了我们的假设,即时空注意力促使所有非掩码 token 之间的交互。 

2. 掩码建模:在第 4 部分中,我们观察到掩码建模发挥着至关重要的作用。然而,在预训练期间使用空间注意力时,掩码建模变得有害。可能的原因是,在逐帧单独处理且使用 80% 的高掩码比例时,非掩码 token 对齐任务变得过于困难。 

3. 教师注意力机制:第 5 部分显示尽管 CLIP-ST 经过微调能得到更好的性能,但直接将其应用为教师模型会导致学生性能下降。我们认为,没有经过视频数据的二次训练,CLIP-ST 可能会干扰图像基模型所学习到表征。 

值得一提的是,在图像领域,经过微调的 CLIP 本身,就能超越了现有的以 CLIP 为目标的掩码预训练 [8]。但我们的结果表明,在视频领域中,学生模型(第 4 部分)显然优于教师即我们精心调整后的 CLIP-ST。我们将其归功于具有时空注意力的掩码视频建模,这鼓励模型捕捉对象之间长时依赖关系。 

不同输入掩码比例 

99e6236cf434812335074f2e208e605f.png

▲ 不同输入掩码比例

在多模态训练时,我们对图像数据和视频数据采用相同 batch,因此显存开销上限主要在于视频输入。实验表明,图像 mask 50%,视频 mask 80%,文本 mask 50% 效果性能最好,显存开销也较小。 

多模态训练目标 

0000a8510318f269451779afe8b73dcf.png

▲ 多模态训练目标

实验表明,VTM 相较 VTC 效果更显著,而 VTC+VTM+MLM 结合效果最佳,结合 UTA 能在降低显存的同时,提升下游性能。 

不同教师 

82672d0548e7f8dc732e59e0d6342059.png

▲ 不同教师

对于不同的教师,我们的学生模型均能取得更优异的性能,但教师能力越强学生能力也相对越强。

2ddc3cde34f4781a777f26b5b69c41dd.png

SOTA comparison

fe56109bc6ef3f4af708803b3fb3726a.png

▲ 行为识别: Kinetics 和 Moments in Time

a81f108882f5ae1452fe23404028edc9.png

▲ 行为识别: something-something V2

6cd8d74c584b41f1794cf8008a50e5a5.png

▲ 时空检测: AVA v2.2

3334e32e089fa6cb46082773d0a25c70.png

▲ Zero-shot视频检索

3988e64fc7a722bc9bab65bb5e80e7f2.png

▲ 视频检索

037ac810e534df5c4444c3766ee4f757.png

▲ SSV2视频检索

211645224ae58dd145fb13dcc41be223.png

▲ 视频问答

限制视频基模型发展的最大挑战,在于训练和数据开销。Unmasked Teacher 借鉴了现有方法的长处,提出了一种可扩展易放缩的高效训练策略——非掩码教师对齐。一来教师可以引进更新的图像基模型,二来可以利用更大的开源 LLM 模态对齐,理想情况下能不断放缩 ViT 模型。

outside_default.png

参考文献

outside_default.png

[1] Yan, Shen et al. “Multiview Transformers for Video Recognition.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 3323-3333.

[2] Yan, Shen et al. “Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners.” ArXiv abs/2212.04979 (2022): n. pag.

[3] Li, Kunchang et al. “UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer.” ArXiv abs/2211.09552 (2022): n. pag.

[4] Wang, Yi et al. “InternVideo: General Video Foundation Models via Generative and Discriminative Learning.” ArXiv abs/2212.03191 (2022): n. pag.

[5] Tong, Zhan et al. “VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training.” ArXiv abs/2203.12602 (2022): n. pag.

[6] Li, Yanghao et al. “Scaling Language-Image Pre-training via Masking.” ArXiv abs/2212.00794 (2022): n. pag.

[7] “VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking.” (2023).

[8] Dong, Xiaoyi et al. “CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet.” ArXiv abs/2212.06138 (2022): n. pag.

更多阅读

9ce12236888258026dca9152670888ad.png

8c07d719350bdbc443128aae566694f1.png

916eca24bc89aecea9fd407d5493a807.png

ee5193cb926d9a13de5dc94d2218a9af.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

5caae35b0becadf4aee6afadf985df95.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

a4b79f781aea953d594de6a418a081fa.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值