NeurIPS 2022 | 何恺明团队新作：MAE扩展到视频！学习时空表示，最优Mask比例高达90%！...

最新推荐文章于 2024-01-05 16:22:21 发布

Amusi（CVer）

最新推荐文章于 2024-01-05 16:22:21 发布

阅读量580

点赞数

文章标签：机器学习人工智能深度学习计算机视觉算法

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247558917&idx=2&sn=2271d918be930dc3ba6be2e96764ac6b&chksm=f9a0958aced71c9cd142bf2a5b09d68c680a48eca515863a7567e51e165706c0c23a695e5d17&scene=126&&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

转载自：AIWalker

2021年末，何恺明团队提出MAE在CV届引起极大轰动，自上传到arxiv之后，各种"YYDS", "Best Paper预定"等，关于MAE的介绍可参考以下两个介绍：

一起来动手实现 MAE吧 : https://zhuanlan.zhihu.com/p/439554945

2022年5月，恺明团队对MAE进行了扩展，将其用于视频表达学习，再一次表达MAE的优异性：最优Mask比例高达90%，在可以学习到强表达能力的同时在空时方面具有almost no inductive bias特性。总而言之，Masked AtuoEncoding(如BERT、MAE等)是一种统一的具有最小领域知识表达学习方法。

Masked Autoencoders As Spatiotemporal Learners

恺明的paper最精彩的有两点：(1) idea足够简单；(2) 实验足够充分。所以本文仅为抛转引玉之述，更精彩的实验部分请移步原文: https://arxiv.org/abs/2205.09113

代码（已开源）：https://github.com/facebookresearch/SlowFast/tree/main/projects/mae

本文方案为MAE的一个简单的扩展，即将图像领域的MAE向视频领域扩展。其目的在于：在尽可能少的领域知识下，研发一种广义且统一的框架。

上图给出了本文所提出方案的整体架构示意图，它主要包含以下几点技术点：

Patch Embedding : 类似ViT，给定视频片段，我们将其沿空时维度拆分为无重叠的规则的网格块(grid)，然后将这些网格块进行flatten并经由线性投影层进行处理。此外，对每个网格快还添加了位置嵌入信息。注：这里的块与位置嵌入过程只仅有的空时感知处理。
Masking : 我们对前述所得块嵌入信息进行随机采样，这里的随机采样类似于BERT和MAE。注1：这里的随机采样具有空时不可感知性。

MAE一文的研究表明：最优Mask比例与数据的信息冗余相关。加持上非结构化随机Mask，BERT的15%与MAE的75%表明：相比语言，图像具有更强的信息冗余。本文的研究(高达90%的Mask比例)进一步支撑了该假设，上图给出了90%与95%Mask比例的MAE在未知验证集上重建结果。

相比结构感知采样策略(如上图b-d)，本文的空时不可知采样策略(见上图a)更加高效。由于近邻块在空时维度上的相关性，结构感知采样策略的最优Mask比例往往比较低。相反，空时不可知采样策略可以更好的利用有限数量的可见块(visible patches)，进而达成更高的Mask比例。

AutoEncoding : 延续MAE方案，本文的编码器ViT仅作用于可见块嵌入。这种设计有助于减少内存占用与推理耗时，达成更实用的方案。高达90%的Mask比例可以将编码器的计算复杂减少到 10%以下。类似MAE，解码器同样采用了ViT架构，且比编码小还要小。尽管解码器作用于全部的token，但其复杂度比编码器小。在默认配置下，自编码器的整体复杂度比标准自编码器方案(即输入端不进行Mask)小7.7x。

Experiments

上表给出了Kinetics-400(K400)数据集上的性能对比，可以看到：相比SOTA方案，本文方案极具竞争力。本文方案是仅有的vanilla ViT方案，其他方案均为分层架构或转为视频而设计的架构。

上表给出了AVA数据集上的性能对比，可以看到：仅需，所提方案取得了与MaskFeat(其输入分辨率更高)相当的性能。更重要的是，该方案采用了PlainViT架构，无需在检测任务上表现更好的分层特征。

上表给出了SSv2数据集上的性能对比，可以看到：仅需输入的VanillaViT方案具有与输入的MaskFeat方案相当的性能。

上面论文和代码下载

后台回复：何恺明视频MAE，即可下载论文和代码

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer222，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer222，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

Amusi（CVer）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NeurIPS 2022 | 何恺明团队新作：MAE扩展到视频！学习时空表示，最优Mask比例高达90%！...

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达转载自：AIWalker2021年末，何恺明团队提出MAE在CV届引起极大轰动，自上传到arxiv之后，各种"YYDS", "Best Paper预定"等，关于MAE的介绍可参考以下两个介绍：何恺明一作最新工作！MAE：简单实用的自监督学习方案，高达87.8%准确率！仅用ImageNet-1K一起来动手实现 MAE吧 : http...
复制链接

扫一扫