ICCV 2023 | Unmasked Teacher：高效训练视频基模型，代码模型已开源

最新推荐文章于 2024-07-24 11:42:47 发布

PaperWeekly

最新推荐文章于 2024-07-24 11:42:47 发布

阅读量390

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247631670&idx=3&sn=ec9f8d9428067a4d3426963e878dddcd&chksm=96e41cb6a19395a0a5df96fe49855e8870fcf3b482722d1d79bd5a972a3b9f0eb8d8a832b7c0&scene=126&sessionid=0

版权

©作者 | 黎昆昌

单位 | 上海AI Lab

研究方向 | 视频行为识别

Unmasked Teacher 旨在高效地训练视频基模型，方法结合了以往视频基模型设计的优点，倡议充分利用图像基模型作为教师，通过掩码学习的方式节省视频训练开销。最终仅用 32 张 80G A100 从头训练 6 天，我们的 ViT-L/16 在流行单模态和多模态 benchmark 上都取得了优异的结果。代码、脚本和模型已开源。

论文标题：

Unmasked Teacher: Towards Training-Efficient Video Foundation Models

论文地址：

https://arxiv.org/abs/2303.16058

代码地址：

https://github.com/OpenGVLab/unmasked_teacher

Motivation

我们首先回顾已有的视频基模型训练方式。最流行的方式是基于图像基础模型二次开发，比如MTV[1]和VideoCoCa[2]，以及我们之前探究的UniFormerV2[3]。二次开发的方法在图像基础模型上额外插入时序建模模块，引入二次视频预训练，以此提升下游能力，但这种方法有三大缺陷：

1. 由于视频数据的相对稀缺，简单的二次视频预训练（post-pretraining）会破坏从图像基模型继承的泛化性。在我们之前做 InternVideo[4]的实验里，模型的 zero-shot 性能会在二次预训练过程中不断变差，我们当时的考虑是视频文本太稀缺，干脆锁住 text encoder，利用 wise-ft 的思想保持模型的泛化性。

2. 再者，图像预训练会带来过强的空间初始化，这导致视频模型非常“短视”——更偏向从单帧场景中感知行为（场景相关），比如“骑马”中的“草地”。反倒忽视了建立全局时空关系，很难去处理和定位时序相关行为，比如“开”和“关”（时序相反行为也会相反）。一个直观的数据就是，UniFormerV2 在 something-something 数据集，相对 VideoMAE 较差，迁移到 AVA 时空检测效果也不理想。

3. 最后，二次开发的方式限制了模型进一步 scale up，在没有更大的图像基模型之前，要放大视频模型几乎不可能。

另外一种流行的方式为 VideoMAE[5] 引入的视频掩码预训练，VideoMAE 最强大的能力在于，利用有限的训练数据从头训练强时序模型，在 something-something 和 AVA 上结果十分惊艳。但这种方式也存在弊端：

1. 高效的数据效率和时序建模能力需要经过漫长的预训练，比如 something-something 上需要 2400 轮迭代。

2. 低层的 pixel-level 重建任务，与高层的跨模态对齐任务（图文对比、图文匹配等）存在冲突，导致掩码预训练模型在多模态任务较差，meta 的论文 FLIP[6] 中也有相似的发现。

3. VideoMAE 依赖额外的 decoder 处理所有 token，当模型放大时，训练开销会急剧变大（PS. VideoMAE V2[7] 采取的一个解决方案是 double mask，在解码器中也引入 mask）。

在这个工作里，我们结合了现有方法的有点，探究了一种高效训练强时序模型的方案。我们不直接迁移图像基模型（如 CLIP），而是将其当做非掩码教师，从头训练简单的 ViT 模型。为了降低训练开销，我们掩码处理了大部分低语义 token，仅对剩下的非掩码 token 进行处理，并通过线性映射层与教师对齐。这种方法具有三大优点：

1. 具备了掩码训练的高效数据利用率，同时对多模态任务友好；

2. 仅线性层对齐非掩码 token，大大降低了显存开销（仅占 VideoMAE 的36%）；

3. 对场景相关行为和时序相关行为，均具备优异的处理能力。

▲ 渐进式非掩码训练框架

渐进式非掩码训练框架针对繁杂的视频任务，我们提出了一套渐进式的预训练框架（如上图）。在第一阶段，我们仅利用少量视频数据进行掩码训练，得到的模型用于处理纯视频任务，如识别和检测。在第二阶段，我们结合开源的文本编码器（BERT），利用图文数据进行多模态训练，得到的模型可以处理复杂的视频-语言任务。

在两个阶段，我们都引入了非掩码教师，加快收敛的同时大大节省了训练开销。随着越来越多图像和自然语言基模型的开源，我们简单的框架可以很容易地放缩模型规模。

最终仅利用开源的资源训练，我们的 ViT-L/16 在多个任务取得了优异性能，包括行为识别（K400 90.6% top-1 acc），时空定位（AVA 39.8 mAP），视频检索（MSRVTT 58.8% R@1）和视频问答（MSRVTT-QA 47.1% acc）。相比 CoCa 使用 2048 块 CloudTPUv4 训练 5 天，我们的模型节省了近 70 倍碳排放。

Method

▲ 学生结构

结构

对于教师，在本论文实验里，考虑到 CLIP 图文训练得到的丰富语义信息，我们采用 CLIP 的视觉编码器，有利于我们后续的多模态训练。为了充分传承教师的知识，我们保持了它的空间结构，逐帧处理视频信息。

对于学生，我们采用简单的 ViT 模型，为了促使非掩码 token 之间的交流，我们使用时空联合注意力机制。为了更好地和教师模型对齐，我们在 patch embedding 种不对时序维度下采样，保证可以逐 token 对齐信息。

掩码

与 VideoMAE 类似地，我们采样较高的掩码比例（如 80%）来减小视频冗余。

但考虑到过于激进的随机掩码可能只保留背景 token，无意义的信息会干扰教师信息蒸馏，我们借鉴了 MaskAlign 中的语义掩码策略，逐帧进行语义掩码，这样包含重要信息的 token 会更大概率地被保留。具体地，我们使用 CLIP-ViT 最后一层的 class token 对空间 token 的 affinity matri 作为重要性分数，使用多项式分布生成掩码概率。

再者，我们采用稀疏采样策略，增大帧间间隔，保证更复杂的上下文信息，从而促使模型对非掩码对象建立更长时的时空关联。

目标

对于教师，我们逐帧输入所有 token，得到的输出，送入 CLIP 预训练时对齐不同模态的 projection 层，得到最终对齐的目标。对于学生，我们仅输入非掩码 token，并通过简单的线性 projection 层对齐。在实验里，我们使用 MSE loss，对齐 L2 正则化的后六层特征。

渐进式训练

在第一阶段，我们仅使用高质量的视频数据进行掩码预训练。在第二阶段我们引入文本编码器和跨模态解码器，使用开源语言大模型进行初始化，并引入额外三种多模态预训练任务。值得一体的是，目前开源的语言模型比图像模型更多样且规模更大。如最大的 OPT 模型有 175B 参数，而 ViT-G 只有 1.8B 参数。

Unmasked Token Alignment: 两阶段均引入前述的非掩码 token 对齐；

Video-Text Contrastive Learning: 使用 symmetric contrastive loss，最大化视觉和文本编码器输出之间互信息；

Video-Text Matching: 对跨模态解码器输出进行分类，判断视觉文本是否匹配，采用 binary cross-entropy loss，额外引入 hard negative mining；

Masked Language Modeling: 使用视觉信息辅助，基于可见文本恢复掩码文本 token。我们采用了 BERT 的掩码策略，但 mask 了 50% 的文本 token。

Traning Setting

数据集

1. 在第一阶段，我们采用 UniFormerV2 中提出 Kinetics-710 数据集进行预训练；

2. 在第二阶段，我们引入图文数据作为补充，采用了如下 5M，17M 和 25M 三种训练设置。

▲ 多模态训练数据

对于下游任务，我们使用版本的数据统计如下图所示：

▲ 下游微调数据

在本论文中，我们考虑两种模型设置：(1) UMT-B: ViT-B/16 + BERT-base；(2) UMT-L: ViT-L/16 + BERT-large。分别采用 CLIP-ViT-B/16 和 CLIP-ViT-L/14 作为教师。在第一阶段，我们采用了 VideoMAE 的大部分超参，但稀疏采样 8 帧，batch 2048 训 200 epoch。在 Kinetics-710 上训练，Base 和 Large 分别花费 60 和 90 小时。在第二阶段，我们稀疏采样 4 帧，batch 4096 训练 10 epoch，25M 训练数据分别花费 24 和 40 小时。

训练超参具体可以见论文的附录 B，详细列举了两阶段训练，以及下游微调的超参。

Ablation Studies

在消融实验中，对于单模态实验，我们使用 something-something 或者 Kinetics-400 进行预训练；而对于多模态实验，我们使用 Kinetics-710 预训练的模型。在单模态和多模态实验中，我们均在场景相关和时序相关数据集上验证了结果。

单模态：K400 (场景) + SSV2 (时序)，比较 top-1 acc
多模态：MSRVTT (场景) + SSV2-label (时序)，比较平均召回率 (R@1, R@5, R@10)

训练目标

▲ 训练目标

我们比较了三种训练目标：[U] 非掩码对齐，[M] 掩码恢复（额外引入decoder），MAE 即 VIdeoMAE 中的 pixel 重建（额外引入 decoder）。与 VideoMAE 的 pixel 重建相比，我们的非掩码 token 对齐仅增加了 36％的内存成本，却显著增强了视频识别和多模态检索性能。然而，在 K400 和 MSRVTT 上将两个目标结合效果并不理想，表明低级重建和高级对齐之间存在一定的冲突。

此外，掩码恢复会产生有害影响，可能是由于高掩码比例使得高层语义恢复过于困难。上述结果证明，我们的方法能有效地学习时序敏感且多模态友好的表征。

掩码方式、采样方式和时序下采样

▲ 掩码方式、采样方式和时序下采样

实验表明，语义掩码对于 K400 效果提升明显，与 VideoMAE 中不同，随机掩码较 Tube 掩码在我们的实验中更有效。稀疏采样增加任务难度带来明显收益，去除时序下采样保证 token 对齐关系，同样必要。

对齐层数

▲ 对齐层数

实验表明，对齐层数对结果有微弱影响，考虑到对齐的显存开销并不大（只需要一层线性层），我们直接对齐后六层来达到最佳性能。

掩码比例

▲ 掩码比例

对于 K400，掩码比例在 75% 效果最好。对于 SSV2，则是 80% 掩码最有效。我们最终采用 80% 掩码作为默认设置。

训练轮次

▲ 训练轮次

与 VideoMAE 类似，掩码训练轮次越多，微调后的性能越高，并且我们的方法相较 VideoMAE 收敛更快。

Why work？Better than teacher.

▲ 原因分析

我们进一步探究了 Unmask Teacher 有效的原因，绿色部分为我们精调 CLIP teacher 的结果：这个结果经过了细致的参数调整，比大多数论文中报的结果都要好，也希望后面的论文能够严谨地给出 baseline 比较，得到正确的结论。

1. 时空注意力：在第 2 和第 3 部分中，我们在微调期间对学生使用空间注意力和时空注意力。结果表明，利用联合时空注意力显著提升性能。此外，在预训练期间使用时空注意力进一步提高了性能（第 4 部分），验证了我们的假设，即时空注意力促使所有非掩码 token 之间的交互。

2. 掩码建模：在第 4 部分中，我们观察到掩码建模发挥着至关重要的作用。然而，在预训练期间使用空间注意力时，掩码建模变得有害。可能的原因是，在逐帧单独处理且使用 80％的高掩码比例时，非掩码 token 对齐任务变得过于困难。

3. 教师注意力机制：第 5 部分显示尽管 CLIP-ST 经过微调能得到更好的性能，但直接将其应用为教师模型会导致学生性能下降。我们认为，没有经过视频数据的二次训练，CLIP-ST 可能会干扰图像基模型所学习到表征。

值得一提的是，在图像领域，经过微调的 CLIP 本身，就能超越了现有的以 CLIP 为目标的掩码预训练 [8]。但我们的结果表明，在视频领域中，学生模型（第 4 部分）显然优于教师即我们精心调整后的 CLIP-ST。我们将其归功于具有时空注意力的掩码视频建模，这鼓励模型捕捉对象之间长时依赖关系。

不同输入掩码比例

▲ 不同输入掩码比例

在多模态训练时，我们对图像数据和视频数据采用相同 batch，因此显存开销上限主要在于视频输入。实验表明，图像 mask 50%，视频 mask 80%，文本 mask 50% 效果性能最好，显存开销也较小。

多模态训练目标

▲ 多模态训练目标

实验表明，VTM 相较 VTC 效果更显著，而 VTC+VTM+MLM 结合效果最佳，结合 UTA 能在降低显存的同时，提升下游性能。

不同教师

▲ 不同教师

对于不同的教师，我们的学生模型均能取得更优异的性能，但教师能力越强学生能力也相对越强。

SOTA comparison

▲ 行为识别: Kinetics 和 Moments in Time

▲ 行为识别: something-something V2

▲ 时空检测: AVA v2.2

▲ Zero-shot视频检索

▲ 视频检索

▲ SSV2视频检索

▲ 视频问答

限制视频基模型发展的最大挑战，在于训练和数据开销。Unmasked Teacher 借鉴了现有方法的长处，提出了一种可扩展易放缩的高效训练策略——非掩码教师对齐。一来教师可以引进更新的图像基模型，二来可以利用更大的开源 LLM 模态对齐，理想情况下能不断放缩 ViT 模型。

参考文献

[1] Yan, Shen et al. “Multiview Transformers for Video Recognition.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 3323-3333.

[2] Yan, Shen et al. “Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners.” ArXiv abs/2212.04979 (2022): n. pag.

[3] Li, Kunchang et al. “UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer.” ArXiv abs/2211.09552 (2022): n. pag.

[4] Wang, Yi et al. “InternVideo: General Video Foundation Models via Generative and Discriminative Learning.” ArXiv abs/2212.03191 (2022): n. pag.

[5] Tong, Zhan et al. “VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training.” ArXiv abs/2203.12602 (2022): n. pag.

[6] Li, Yanghao et al. “Scaling Language-Image Pre-training via Masking.” ArXiv abs/2212.00794 (2022): n. pag.

[7] “VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking.” (2023).

[8] Dong, Xiaoyi et al. “CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet.” ArXiv abs/2212.06138 (2022): n. pag.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ICCV 2023 | Unmasked Teacher：高效训练视频基模型，代码模型已开源

©作者 |黎昆昌单位 |上海AI Lab研究方向 |视频行为识别Unmasked Teacher 旨在高效地训练视频基模型，方法结合了以往视频基模型设计的优点，倡议充分利用图像基模型作为教师，通过掩码学习的方式节省视频训练开销。最终仅用 32 张 80G A100 从头训练 6 天，我们的 ViT-L/16 在流行单模态和多模态 benchmark 上都取得了优异的结果。代码、脚本和模型已开...
复制链接

扫一扫