Masked Autoencoders As Spatiotemporal Learners精读笔记

最新推荐文章于 2024-07-21 07:30:00 发布

别码了W哥

最新推荐文章于 2024-07-21 07:30:00 发布

阅读量806

点赞数 1

文章标签：人工智能深度学习自然语言处理

本文链接：https://blog.csdn.net/Leon_____/article/details/128944065

版权

文章介绍了如何将MAE扩展到视频任务中，利用时空无关的随机掩模实现高效的学习。在高冗余的视频数据中，高达90%的掩模比例能加速学习并提高准确性。MAE框架减少了领域知识的需求，展现出在视频表征学习中的优越性能，特别是在对比监督预训练的方法时。实验表明，这种简单的方法在速度和精度上都有显著提升。

摘要由CSDN通过智能技术生成

[图片]

0 Abstract

原本应用在Image领域的MAE可以简单地拓展到video任务做spatiotemporal表征。

在几乎没有对时空的归纳偏置的情况下（除了patch和positional embedding），MAE可以学习强表征；
时空无关（spacetime-agnostic）的随机掩码表现最好；
最优的masking ratio高达90%！这是由于video任务的高冗余特征，并且高ratio可以speedup；
Masked autoencoding framework可以成为一种统一方法，用最少的领域知识进行表征学习；
达到了远高于supervised pre-training的性能。

1 Introduction

统一化模型解决不同领域的问题已经成为大趋势。对于一个新的任务，统一化模型将引入更少的领域知识（即更少的归纳偏置），迫使模型从几乎只从数据中学习有用的知识。

少归纳偏置，让模型learned from data：
video任务的高冗余性，带来高masking ratio：
高效率，高精度
- Reduces encoder time and memory complexity to <1/10；
- Achieve a theoretically 7.7× reduction in computation vs. encoding all tokens;
- 4.1× wall-clock speedup;
- Pre-training MAE increases the accuracy of ViT-Large by absolute 13% vs. training from scratch;

2 Related Work

2.1 Denoising autoencoders (DAE)

DAE是一类统一方法：从被损毁的input中重建signals。

成功的Transformer统一方法：
- BERT：using language tokens;
- iGPT：using pixels as tokens;
- ViT：using patch as tokens。
重建方法：
- MAE（2021）：patch as the reconstruction target;
- BEiT（2022）：pre-trained dVAE (visual tokens) as the reconstruction target;
- MaskFeat（2023）：HoG (方向梯度直方图) as the reconstruction target;

2.2 Self-supervised learning on videos

时间维度是视频数据自监督督学习的重点：temporal coherence，future prediction，object motion，temporal ordering，spatiotemporal contrast。
本文方法隐式地实现了temporal coherence（本文方法的时空无关性），主要是使用高masking ratio（假设video有较多的冗余信息）。相比其他方法，本文更简单（重建像素），需要更少的领域知识，且更省计算。

3 Method

3.1 Patch embedding

对图像在时空维度上分割为不重叠的patch并打平，经过linear projection，再加入position embedding。此处强调，patch和pos embeding是唯一具有时空相关性的过程（只需要很少的归纳偏置）。

3.2 Masking

采用随机的spacetime-agnostic sampling，相比其他方式将更为高效，并且90%最佳：
在这里插入图片描述

3.3 Autoencoding

Encoder：vaniila ViT；
Decoder：更小的vaniila ViT，因为decoder需要处理的token的复杂度小于encode（约1/20）；
Patch prediction：原则上可以简单地预测一个完整的时空patch（t×16×16），但在实践中发现预测patch的单个时间片（16×16）就足够了，这使预测层的大小保持可控；
Training loss：MSE，在unknown patches上取平均值。

4 Implementation

Data pre-processing：16帧（224*224，步长为4的随机抽帧），并且经过random resized cropping和random horizontal flipping的数据增强。
Bottleneck：由于MAE计算极快，数据加载成为新的瓶颈。为此使用repeated sampling：每次加载和解压缩原始视频时，都会从中获取多个（默认为4）样本，这减少了每个样本的数据加载和解压缩时间；
Architecture：ViT，positional embedding包括空间embedding和时间embedding，并且进行可分离实现（防止embedding的大小在三维空间中变得过大）；