MAE 论文精读 | 在CV领域自监督的Bert思想

最新推荐文章于 2024-02-18 12:28:58 发布

Qodicat

最新推荐文章于 2024-02-18 12:28:58 发布

阅读量1k

点赞数 2

分类专栏： AI前沿论文阅读文章标签： bert 人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Q52099999/article/details/132493067

版权

AI前沿论文阅读专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1. 背景

之前我们了解了VIT和transformer

MAE 是基于VIT的，不过像BERT探索了自监督学习在NLP领域的transformer架构的应用，MAE探索了自监督学习在CV的transformer的应用

论文标题中的Auto就是说标号来自于图片本身，暗示了这种无监督的学习

2.方法

像是Bert一样，通过mask形成带掩码的语言模型，挖掉东西，然后让模型来估计

随机盖住一些块patch，然后预测出盖住的patch，预测这个patch里的所有像素

遮住更大的块的话可以让模型学习一些更好的表征

要注意这些模型的基本都很大

2.1 基本流程

（1）首先输入图像随机打成一个一个的块patch，随机遮住其中一些

（2）然后将未遮住的块送入Encoder编码器进行编码形成特征，这里注意我们的编码器只需要处理未遮住的块，所以计算量要比全部处理更小

（3）和原来遮住的块叠加拼接再送入decoder解码器恢复被遮住的块

实际使用中，只需要用编码器即可（不需要做掩码）编码器提取特征用于计算机视觉的下游任务

由于编码很重要，所以主要的计算量还是来自编码器

2.2 与VIT比较

（1）盖住更多的块，使得块与块之间的冗余没有那么高

（2）用一个transformer架构的解码器，直接还原原始像素信息，使得整个流程更加简单

（3）加上一些技术，如正则项技术，也可以在小一点的数据集上训练出来，使得训练更加鲁棒

3.实验

映射的维度

微调可以调整个全部的网络，也可以调最后一层，或者调网络中的部分层，微调哪些层

尝试不同遮住率

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MAE 论文精读 | 在CV领域自监督的Bert思想

之前我们了解了VIT和transformerMAE 是基于VIT的，不过像BERT探索了自监督学习在NLP领域的transformer架构的应用，MAE探索了自监督学习在CV的transformer的应用论文标题中的Auto就是说标号来自于图片本身，暗示了这种无监督的学习。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。