Masked Autoencoders As Spatiotemporal Learners精读笔记

[图片]

0 Abstract

原本应用在Image领域的MAE可以简单地拓展到video任务做spatiotemporal表征。

  • 在几乎没有对时空的归纳偏置的情况下(除了patch和positional embedding),MAE可以学习强表征;
  • 时空无关(spacetime-agnostic)的随机掩码表现最好;
  • 最优的masking ratio高达90%!这是由于video任务的高冗余特征,并且高ratio可以speedup;
  • Masked autoencoding framework可以成为一种统一方法,用最少的领域知识进行表征学习;
  • 达到了远高于supervised pre-training的性能。

1 Introduction

统一化模型解决不同领域的问题已经成为大趋势。对于一个新的任务,统一化模型将引入更少的领域知识(即更少的归纳偏置),迫使模型从几乎只从数据中学习有用的知识。

  • 少归纳偏置,让模型learned from data:
    在这里插入图片描述

  • video任务的高冗余性,带来高masking ratio:
    在这里插入图片描述

  • 高效率,高精度

    • Reduces encoder time and memory complexity to <1/10;
    • Achieve a theoretically 7.7× reduction in computation vs. encoding all tokens;
    • 4.1× wall-clock speedup;
    • Pre-training MAE increases the accuracy of ViT-Large by absolute 13% vs. training from scratch;

2 Related Work

2.1 Denoising autoencoders (DAE)

DAE是一类统一方法:从被损毁的input中重建signals。

  • 成功的Transformer统一方法:
    • BERT:using language tokens;
    • iGPT:using pixels as tokens;
    • ViT:using patch as tokens。
  • 重建方法:
    • MAE(2021):patch as the reconstruction target;
      在这里插入图片描述

    • BEiT(2022):pre-trained dVAE (visual tokens) as the reconstruction target;
      在这里插入图片描述

    • MaskFeat(2023):HoG (方向梯度直方图) as the reconstruction target;
      在这里插入图片描述

2.2 Self-supervised learning on videos

时间维度是视频数据自监督督学习的重点:temporal coherence,future prediction,object motion,temporal ordering,spatiotemporal contrast。
本文方法隐式地实现了temporal coherence(本文方法的时空无关性),主要是使用高masking ratio(假设video有较多的冗余信息)。相比其他方法,本文更简单(重建像素),需要更少的领域知识,且更省计算。

3 Method

3.1 Patch embedding

对图像在时空维度上分割为不重叠的patch并打平,经过linear projection,再加入position embedding。此处强调,patch和pos embeding是唯一具有时空相关性的过程(只需要很少的归纳偏置)。

3.2 Masking

采用随机的spacetime-agnostic sampling,相比其他方式将更为高效,并且90%最佳:
在这里插入图片描述

3.3 Autoencoding

  • Encoder:vaniila ViT;
  • Decoder:更小的vaniila ViT,因为decoder需要处理的token的复杂度小于encode(约1/20);
  • Patch prediction:原则上可以简单地预测一个完整的时空patch(t×16×16),但在实践中发现预测patch的单个时间片(16×16)就足够了,这使预测层的大小保持可控;
  • Training loss:MSE,在unknown patches上取平均值。

4 Implementation

  • Data pre-processing:16帧(224*224,步长为4的随机抽帧),并且经过random resized cropping和random horizontal flipping的数据增强。
  • Bottleneck:由于MAE计算极快,数据加载成为新的瓶颈。为此使用repeated sampling:每次加载和解压缩原始视频时,都会从中获取多个(默认为4)样本,这减少了每个样本的数据加载和解压缩时间;
  • Architecture:ViT,positional embedding包括空间embedding和时间embedding,并且进行可分离实现(防止embedding的大小在三维空间中变得过大);

5 Experiments

5.1 Performance

  • 数据集:Kinetics-400 (K400),采集自油管视频,包含400个人类动作类,每个动作至少400段视频。
  • 通过MAE预训练ViT,相比trainig from scratch在性能与速度上都有较大提升:
    在这里插入图片描述
  • MAE的预训练非常快是因为encoder只应用于稀疏空间,即不需要加入mask token [M]:
    在这里插入图片描述

5.2 Ablation experiments

  • 90%的masking ratio表现最好,如果训练够长,95%表现也可圈可点:
    在这里插入图片描述

  • 时空无关的随机采样mask表现最好:
    在这里插入图片描述

  • 以经过per-patch normalized的pixel作为重建目标表现最好:
    [图片]

  • 在[0.5, 1]的范围内进行random cropping的表现最好:
    [图片]

  • 采用4倍的Repeated sampling策略表现最好:
    [图片]

  • Decoder的容量在512 hidden dim以及4 block时表现最好:
    [图片]

5.3 Influence of Data

  • Transfer learning ablation
    [图片]

  • Real-world data
    [图片]

6 Conclusion

  • 用最少的领域知识(归纳偏置)学习强表征是可能的,并证明了视频上的自监督学习可以在一个概念统一的框架中解决;
  • masking ratio是一个重要的因素,其最佳值可能取决于数据的特征;
  • 在真实世界的未经策划的数据上(例如直接采用ins上的视频)进行预训练能达到很好的效果;
  • 本文所探索的数据规模比语言对应的数据要小几个数量级,高维视频数据仍然是主要的挑战。本文的研究能为未来的研究提供初步的指引。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值