对MAE的解析

一、背景

        Masked Autoencoders(掩膜自编码器)在NLP领域大放异彩,它是去噪自编码器[1]的一种具体实现方式,然而其在视觉领域的研究进展却有所滞后。作者指出了视觉和NLP两个领域中掩膜自编码器的差异:

  •  架构差异,这一点由于Vit的提出将差异进行了弥合。
  •  信息密度不同,自然语言的语义复杂度相比图像更高一些,比如将一个句子的部分单词删除掉,补全缺失的单词似乎是一项非常复杂的语言理解任务,而图像存在较多的信息冗余,比如天空、草地、河流,掩盖部分图像可以从相邻区域进行复原。
  •  视觉decoder还原masked块的像素,语义层次较低,NLP的decoder还原的是masked的词,后者拥有的语义信息更丰富,所以BERT中的decoder仅需一个MLP就可以搞定masked的词t复原。所以,就复原难度来说,视觉decoder的难度更大。

        综上,以掩膜自编码器的形式构建了一种视觉领域的表征学习器,架构如下,由一个encoder和一个decoder构成。

        在训练时,将75%的图片块mask掉,送入encoder模块, 所以encoder模块的计算量会比较小,送入decoder的输入是encoder的输出加上mask的图片块,图片块的位置复原为原图位置,decoder输出复原后的图像。所以,我们可以得到一个基本的结论,在训练时MAE的计算量会大幅减少,因为encoder仅需要关注未被mask掉的25%的图像块即可。

        在测试时,decoder部分被舍弃,将预训练后的encoder直接应用于完整的图片,得到的输出用于视觉任务。

二、Encoder

        Encoder部分使用的是Vit,出彩点是采用了极高的mask比例,75%!有三点好处:第一是计算效率大幅提升,第二个是会促使模型完成高难度的自监督学习任务,得到更鲁棒的图像表征;第二是可以很容易在大模型上做应用,这也是论文题目上Scale出现的原因。

三、Decoder

        由于采用了非对称结构设计,decoder可以和encoder解耦,作者采用了更浅而瘦的Vit网络,计算量是encoder部分的1/10,极大的减少了预训练时间。

四、消融实验

  •  慎用颜色增强,据作者所述,实验结果有负向作用;

五、参考文献

  1. Extracting and composing robust features with denoising autoencoders

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值