Masked Autoencoders Are Scalable Vision Learners(MAE)论文阅读笔记

   

实例:

 网络结构:

         掩码自动编码器(MAE)是一种Denoising Auto encoder,它可以重构原始信号。像所有的Auto encoder一样,MAE利用编码器将观察到的信号映射到一个潜在的表示,再利用解码器,从潜在的表示重构原始信号。        

MAE模型架构基于两个核心设计:

首先,提出了一个非对称的编码-解码结构,encoder只对未掩盖的patch部分的子集进行操作;然后通过一个轻量级的decoder从潜表示和mask token对图像进行重建。

其次,会掩盖大部分输入图像(高达75%),以此减少冗余,依旧能获得有意义的自监督结果。

Encoder端:

        同样,编码器结构也是利用ViT进行搭建,但不同的是,MAE的编码器只应用于可见的(没有隐蔽)的patch,将可见的patch进行token embbeding,然后通过一系列的Transformer块的处理。由于encoder端接收可见的patch  允许我们只用一小部分的计算和内存来训练非常大的编码器。

Decoder端:

        Decoder同样也是由多个Transformer块组成的。与Encoder不同的是,Decoder输入是由完整的patch组成,即visible token和mask token。每一个mask token都是一个需要学习的向量。 而后再将位置编码positional embedding 加入到patch当中,表示每个token在图片中的位置信息。最后通过一系列的Transfomer块处理。

        Decoder模块只存在于预训练的重建图像任务中,因此可以独立于encoder去设计decoder,文中采用轻量级的decoder,即Transformer块的数量更少

Reconstruction:

               MAE通过预测每个掩码块的像素值进行原始信息重建 。解码器的最后一层为线性投影,其输出通道数等于每个块的像素数量。编码器的输出将通过reshape构建重建图像。损失函数则采用了MSE,注:类似于BERT仅在掩码块计算损失。

Experiment:

MAE可以较为轻易的扩展到更大模型并具有稳定的性能提升 

个人测试结果:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值