《Video MAE》何恺明团队提出视频版本的MAE，进行高效视频预训练！Mask Ratio高达90%时效果很好！...

最新推荐文章于 2024-09-08 14:17:57 发布

我爱计算机视觉

最新推荐文章于 2024-09-08 14:17:57 发布

阅读量2.6k

点赞数 1

文章标签：大数据编程语言 python 计算机视觉机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moxibingdao/article/details/124977029

版权

本文介绍了何恺明团队的最新论文，他们提出了视频版的Masked Autoencoders (MAE)进行高效视频预训练。研究发现，视频MAE在90%的Mask Ratio下能实现良好效果，优于传统有监督预训练，且在多个视频数据集上展现出竞争力。这种方法展示了自监督学习在统一框架下处理视频表征学习的潜力。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

本篇文章分享论文『Masked Autoencoders As Spatiotemporal Learners』，由何恺明团队提出视频版本的 MAE，进行高效视频预训练！Mask Ratio 高达 90% 时效果很好！

详细信息如下：

论文链接：https://arxiv.org/abs/2205.09113
项目链接：尚未开源

01

摘要

本文研究了Masked Autoencoders（MAE）在概念上对视频时空表示学习的简单扩展。作者随机mask视频中的时空patch，并学习Autoencoders以像素为单位重建它们。

有趣的是，本文的MAE方法可以学习强表示，几乎没有时空诱导偏置，时空不可知随机的mask表现最好。作者观察到，最佳掩蔽率（mask ratio）高达90%（而图像的掩蔽率为75%），这支持了该比率与数据信息冗余相关的假设。较高的掩蔽率会造成较大的加速比例。作者使用vanilla Vision Transformers报告了几个具有挑战性的视频数据集的竞争结果。

通过实验，作者观察到，MAE的表现大大优于有监督的预训练。此外，作者还报告了在真实世界中未经处理的Instagram数据上进行训练的结果。本文的研究表明，masked autoencoding的一般框架（BERT、MAE等）可以是一种使用最少领域知识进行表征学习的统一方法。

02

Motivation

深度学习社区正在经历一种趋势，即统一解决不同领域问题的方法，如语言、视觉、言语等。在架构方面，transformer已成功地引入计算机视觉，并被确立为语言和视觉的通用构建块。对于自监督表征学习，BERT中的去噪/屏蔽自动编码（masked autoencoding）方法已被证明对从图像中学习视觉表征有效。为了统一方法，针对特定问题只引入了较少的领域知识，这促使模型几乎完全从数据中学习有用的知识。

最低0.47元/天解锁文章

我爱计算机视觉

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。