文献阅读（76）CVPR2022-Masked Autoencoders Are Scalable Vision Learners

学徒刘猛

已于 2023-03-18 12:54:57 修改

阅读量421

点赞数 1

分类专栏：文献阅读文章标签：深度学习人工智能计算机视觉

于 2023-03-14 16:26:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CSDNTianJi/article/details/129531508

版权

文献阅读专栏收录该内容

87 篇文章 32 订阅

订阅专栏

本文是对《Masked Autoencoders Are Scalable Vision Learners》一文的浅显翻译与理解，如有侵权即刻删除。

更多相关文章，请移步：
文献阅读总结：计算机视觉

文章目录

Title
总结

Title

《Masked Autoencoders Are Scalable Vision Learners》

——CVPR2022

Author: 何恺明

总结

具体讲解可参考李沐解读视频：https://www.bilibili.com/video/BV1sq4y1q77t/?spm_id_from=333.999.0.0

文章提出了MAE模型，本质上是将transformer应用到了视觉领域，在此对几个模型演变进行解释：transformer提出于NLP领域，是有监督学习，而BERT对齐扩展到了自监督学习领域。与此同时，VIT将transformer迁移到cv方向，仍然是有监督学习，那么这篇MAE就可视为视觉领域中的BERT。

在这里插入图片描述

在这里插入图片描述

在此，将结合另外一篇论文进行解读，NeurIPS2022-Masked Autoencoders As Spatiotemporal Learners，该论文把MAE从视觉领域扩展到了视频领域。

文章指出，相比于文本数据的精炼，图像和视频数据往往有着较多的冗余信息，即便对少部分位置进行掩码，也能够通过周围信息直接推断。

因此，不同于BERT的掩码率在15%，MAE在图像上的掩码率达到75%，而在视频上达到90%。

在这里插入图片描述

图像版本的MAE有几个主要流程：（1）非对称masked autoencoders；（2）把可见的patch输入encoder，然后把masked tokens合并进去；（3）解码后补全图片。而视频版本的MAE没有对时空的注意力进行解耦的操作，直接规则地切分了三维的像素块作为patch。

该模型的结构也非常简洁明了，是transformer在cv和视频领域强大应用能力的又一佐证。而且通过对文本、图像、视频三种不同模态数据上不同掩码率的比较，也让人对多模态数据的区别有了直观的认知。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
文献阅读（76）CVPR2022-Masked Autoencoders Are Scalable Vision Learners

本文是对《Masked Autoencoders Are Scalable Vision Learners》一文的浅显翻译与理解，如有侵权即刻删除。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。