©作者 | 黎昆昌
单位 | 上海AI Lab
研究方向 | 视频行为识别
Unmasked Teacher 旨在高效地训练视频基模型,方法结合了以往视频基模型设计的优点,倡议充分利用图像基模型作为教师,通过掩码学习的方式节省视频训练开销。最终仅用 32 张 80G A100 从头训练 6 天,我们的 ViT-L/16 在流行单模态和多模态 benchmark 上都取得了优异的结果。代码、脚本和模型已开源。
论文标题:
Unmasked Teacher: Towards Training-Efficient Video Foundation Models
论文地址:
https://arxiv.org/abs/2303.16058
代码地址:
https://github.com/OpenGVLab/unmasked_teacher
Motivation
我们首先回顾已有的视频基模型训练方式。最流行的方式是基于图像基础模型二次开发,比如MTV[1]和VideoCoCa[2],以及我们之前探究的UniFormerV2[3]。二次开发的方法在图像基础模型上额外插入时序建模模块,引入二次视频预训练,以此提升下游能力,但这种方法有三大缺陷:
1. 由于视频数据的相对稀缺,简单的二次视频预训练(post-pretraining)会破坏从图像基模型继承的泛化性。在我们之前做 InternVideo[4]的实验里,模型的 zero-shot 性能会在二次预训练过程中不断变差,我们当时的考虑是视频文本太稀缺,干脆锁住 text encoder,利用 wise-ft 的思想保持模型的泛化性。
2. 再者,图像预训练会带来过强的空间初始化,这导致视频模型非常“短视”——更偏向从单帧场景中感知行为(场景相关),比如“骑马”中的“草地”。反倒忽视了建立全局时空关系,很难去处理和定位时序相关行为,比如“开”和“关”(时序相反行为也会相反)。一个直观的数据就是,UniFormerV2 在 something-something 数据集,相对 VideoMAE 较差,迁移到 AVA 时空检测效果也不理想。
3. 最后,二次开发的方式限制了模型进一步 scale up,在没有更大的图像基模型之前,要放大视频模型几乎不可能。
另外一种流行的方式为 VideoMAE[5] 引入的视频掩码预训练,VideoMAE 最强大的能力在于,利用有限的训练数据从头训练强时序模型,在 something-something 和 AVA 上结果十分惊艳。但这种方式也存在弊端:
1. 高效的数据效率和时序建模能力需要经过漫长的预训练,比如 something-something 上需要 2400 轮迭代。
2. 低层的 pixel-level 重建任务,与高层的跨模态对齐任务(图文对比、图文匹配等)存在冲突,导致掩码预训练模型在多模态任务较差,meta 的论文 FLIP[6] 中也有相似的发现。
3. VideoMAE 依赖额外的 decoder 处理所有 token,当模型放大时,训练开销会急剧变大(PS. VideoMAE V2[7] 采取的一个解决方案是 double mask,在解码器中也引入 mask)。
在这个工作里,我们结合了现有方法的有点,探究了一种高效训练强时序模型的方案。我们不直接迁移图像基模型(如 CLIP),而是将其当做非掩码教师,从头训练简单的 ViT 模型。为了降低训练开销,我们掩码处理了大部分低语义 token,仅对剩下的非掩码 token 进行处理,并通过线性映射层与教师对齐。这种方法具有三大优点:
1. 具备了掩码训练的高效数据利用率,同时对多模态任务友好;
2. 仅线性层对齐非掩码 token,大大降低了显存开销(仅占 VideoMAE 的36%);
3. 对场景相关行为和时序相关行为,均具备优异的处理能力。
▲ 渐进式非掩码训练框架
渐进式非掩码训练框架 针对繁杂的视频任务,我们提出了一套渐进式的预训练框架(如上图)。在第一阶段,我们仅利用少量视频数据进行掩码训练,得到的模型用于处理纯视频任务,如识别和检测。在第二阶段,我们结合开源的文本编码器(BERT),利用图文数据进行多模态训练,得到的模型可以处理复杂的视频-语言任务。
在两个阶段,我们都引入了非掩码教师,加快收敛的同时大大节省了训练开销。随着越来越多图像和自然语言基模型的开源,我们简单的框架可以很容易地放缩模型规模。
最终仅利用开源的资源训练,我们的 ViT-L/16 在多个任务取得了优异性能,包括行为识别(K400 90.6% top-1 acc),时空定位(AVA 39.8 mAP),视频检索(MSRVTT 58.8% R@1)和视频问答(MSRVTT-QA 47.1% acc)。相比 CoCa 使用 2048 块 CloudTPUv4 训练 5 天,我们的模型节省了近 70 倍碳排放。
Method
▲ 学生结构
结构
对于教师,在本论文实验里,考虑到 CLIP 图文训练得到的丰富语义信息,我们采用 CLIP 的视觉编码器,有利于我们后续的多模态训练。为了充分传承教师的知识,我们保持了它的空间结构,逐帧处理视频信息。
对于学生,我们采用简单的 ViT 模型,为了促使非掩码 token 之间的交流,我们使用时空联合注意力机制。为了更好地和教师模型对齐,我们在 patch embedding 种不对时序维度下采样,保证可以逐 token 对齐信息。
掩码
与 VideoMAE 类似地,我们采样较高的掩码比例(如 80%)来减小视频冗余。
但考虑到过于激进的随机掩码可能只保留背景 token,无意义的信息会干扰教师信息蒸馏,我们借鉴了 MaskAlign 中的语义掩码策略,逐帧进行语义掩码,这样包含重要信息的 token 会更大概率地被保留。具体地,我们使用 CLIP-ViT 最后一层的 class token 对空间 token 的 affinity matri 作为重要性分数,使用多项式分布生成掩码概率。
再者,我们采用稀疏采样策略,增大帧间间隔,保证更复杂的上下文信息,从而促使模型对非掩码对象建立更长时的时空关联。
目标
对于教师,我们逐帧输入所有 token,得到的输出,送入 CLIP 预训练时对齐不同模态的 projection 层,得到最终对齐的目标。对于学生,我们仅输入非掩码 token,并通过简单的线性 projection 层对齐。在实验里,我们使用 MSE loss,对齐 L2 正则化的后六层特征。
渐进式训练
在第一阶段,我们仅使用高质量的视频数据进行掩码预训练。在第二阶段我们引入文本编码器和跨模态解码器,使用开源语言大模型进行初始化,并引入额外三种多模态预训练任务。值得一体的是,目前开源的语言模型比图像模型更多样且规模更大。如最大的 OPT 模型有 175B 参数,而 ViT-G 只有 1.8B 参数。
Unmasked Token Alignment: 两阶段均引入前述的非掩码 token 对齐;
Video-Text Contrastive Learning: 使用 symmetric contrastive loss,最大化视觉和文本编码器输出之间互信息;
Video-Text Matching: 对跨模态解码器输出进行分类,判断视觉文本是否匹配,采用 binary cross-entropy loss,额外引入 hard negative mining;
Masked Language Modeling: 使用视觉信息辅助,基于可见文本恢复掩码文本 token。我们采用了 BERT 的掩码策略,但 mask 了 50% 的文本 token。
Traning Setting
数据集
1. 在第一阶段,我们采用 UniFormerV2 中提出 Kinetics-710 数据集进行预训练;
2. 在第二阶段,我们引入图文数据作为补充,采用了如下 5M,17M 和 25M 三种训练设置。
▲ 多模态训练数据
对于下游任务,我们使用版本的数据统计如下图所示:
▲ 下游微调数据
在本论文中,我们考虑两种模型设置:(1) UMT-B: ViT-B/16 + BERT-base;(2) UMT-L: ViT-L/16 + BERT-large。分别采用 CLIP-ViT-B/16 和 CLIP-ViT-L/14 作为教师。在第一阶段,我们采用了 VideoMAE 的大部分超参,但稀疏采样 8 帧,batch 2048 训 200 epoch。在 Kinetics-710 上训练,Base 和 Large 分别花费 60 和 90 小时。在第二阶段,我们稀疏采样 4 帧,batch 4096 训练 10 epoch,25M 训练数据分别花费 24 和 40 小时。
训练超参具体可以见论文的附录 B,详细列举了两阶段训练,以及下游微调的超参。
Ablation Studies
在消融实验中,对于单模态实验,我们使用 something-something 或者 Kinetics-400 进行预训练;而对于多模态实验,我们使用 Kinetics-710 预训练的模型。在单模态和多模态实验中,我们均在场景相关和时序相关数据集上验证了结果。
单模态:K400 (场景) + SSV2 (时序),比较 top-1 acc
多模态:MSRVTT (场景) + SSV2-label (时序),比较平均召回率 (R@1, R@5, R@10)
训练目标
▲ 训练目标
我们比较了三种训练目标:[U] 非掩码对齐,[M] 掩码恢复(额外引入decoder),MAE 即 VIdeoMAE 中的 pixel 重建(额外引入 decoder)。与 VideoMAE 的 pixel 重建相比,我们的非掩码 token 对齐仅增加了 36% 的内存成本,却显著增强了视频识别和多模态检索性能。然而,在 K400 和 MSRVTT 上将两个目标结合效果并不理想,表明低级重建和高级对齐之间存在一定的冲突。
此外,掩码恢复会产生有害影响,可能是由于高掩码比例使得高层语义恢复过于困难。上述结果证明,我们的方法能有效地学习时序敏感且多模态友好的表征。
掩码方式、采样方式和时序下采样
▲ 掩码方式、采样方式和时序下采样
实验表明,语义掩码对于 K400 效果提升明显,与 VideoMAE 中不同,随机掩码较 Tube 掩码在我们的实验中更有效。稀疏采样增加任务难度带来明显收益,去除时序下采样保证 token 对齐关系,同样必要。
对齐层数
▲ 对齐层数
实验表明,对齐层数对结果有微弱影响,考虑到对齐的显存开销并不大(只需要一层线性层),我们直接对齐后六层来达到最佳性能。
掩码比例
▲ 掩码比例
对于 K400,掩码比例在 75% 效果最好。对于 SSV2,则是 80% 掩码最有效。我们最终采用 80% 掩码作为默认设置。
训练轮次
▲ 训练轮次
与 VideoMAE 类似,掩码训练轮次越多,微调后的性能越高,并且我们的方法相较 VideoMAE 收敛更快。
Why work?Better than teacher.
▲ 原因分析
我们进一步探究了 Unmask Teacher 有效的原因,绿色部分为我们精调 CLIP teacher 的结果:这个结果经过了细致的参数调整,比大多数论文中报的结果都要好,也希望后面的论文能够严谨地给出 baseline 比较,得到正确的结论。
1. 时空注意力:在第 2 和第 3 部分中,我们在微调期间对学生使用空间注意力和时空注意力。结果表明,利用联合时空注意力显著提升性能。此外,在预训练期间使用时空注意力进一步提高了性能(第 4 部分),验证了我们的假设,即时空注意力促使所有非掩码 token 之间的交互。
2. 掩码建模:在第 4 部分中,我们观察到掩码建模发挥着至关重要的作用。然而,在预训练期间使用空间注意力时,掩码建模变得有害。可能的原因是,在逐帧单独处理且使用 80% 的高掩码比例时,非掩码 token 对齐任务变得过于困难。
3. 教师注意力机制:第 5 部分显示尽管 CLIP-ST 经过微调能得到更好的性能,但直接将其应用为教师模型会导致学生性能下降。我们认为,没有经过视频数据的二次训练,CLIP-ST 可能会干扰图像基模型所学习到表征。
值得一提的是,在图像领域,经过微调的 CLIP 本身,就能超越了现有的以 CLIP 为目标的掩码预训练 [8]。但我们的结果表明,在视频领域中,学生模型(第 4 部分)显然优于教师即我们精心调整后的 CLIP-ST。我们将其归功于具有时空注意力的掩码视频建模,这鼓励模型捕捉对象之间长时依赖关系。
不同输入掩码比例
▲ 不同输入掩码比例
在多模态训练时,我们对图像数据和视频数据采用相同 batch,因此显存开销上限主要在于视频输入。实验表明,图像 mask 50%,视频 mask 80%,文本 mask 50% 效果性能最好,显存开销也较小。
多模态训练目标
▲ 多模态训练目标
实验表明,VTM 相较 VTC 效果更显著,而 VTC+VTM+MLM 结合效果最佳,结合 UTA 能在降低显存的同时,提升下游性能。
不同教师
▲ 不同教师
对于不同的教师,我们的学生模型均能取得更优异的性能,但教师能力越强学生能力也相对越强。
SOTA comparison
▲ 行为识别: Kinetics 和 Moments in Time
▲ 行为识别: something-something V2
▲ 时空检测: AVA v2.2
▲ Zero-shot视频检索
▲ 视频检索
▲ SSV2视频检索
▲ 视频问答
限制视频基模型发展的最大挑战,在于训练和数据开销。Unmasked Teacher 借鉴了现有方法的长处,提出了一种可扩展易放缩的高效训练策略——非掩码教师对齐。一来教师可以引进更新的图像基模型,二来可以利用更大的开源 LLM 模态对齐,理想情况下能不断放缩 ViT 模型。
参考文献
[1] Yan, Shen et al. “Multiview Transformers for Video Recognition.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 3323-3333.
[2] Yan, Shen et al. “Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners.” ArXiv abs/2212.04979 (2022): n. pag.
[3] Li, Kunchang et al. “UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer.” ArXiv abs/2211.09552 (2022): n. pag.
[4] Wang, Yi et al. “InternVideo: General Video Foundation Models via Generative and Discriminative Learning.” ArXiv abs/2212.03191 (2022): n. pag.
[5] Tong, Zhan et al. “VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training.” ArXiv abs/2203.12602 (2022): n. pag.
[6] Li, Yanghao et al. “Scaling Language-Image Pre-training via Masking.” ArXiv abs/2212.00794 (2022): n. pag.
[7] “VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking.” (2023).
[8] Dong, Xiaoyi et al. “CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet.” ArXiv abs/2212.06138 (2022): n. pag.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·