【自监督学习】 MAE阅读笔记

1.MAE

Masked Autoencoders Are Scalable Vision Learners

bert+ViT

MAE的主要目的是进行迁移学习的预训练

1.Abstract

随即盖住一些图片中的块(patches),并重建被盖住块中的所有像素。

  1. 一种非对称编码器-解码器体系结构。
  • 编码器只对可见的patches(没有掩码标记)进行操作

  • 轻量级解码器,它从潜在的表示和掩码标记重建原始图像。

  1. 当遮住大量的块(75%)会得到非显然的有意义的自监督任务。
  2. 两种设计结合起来,速度提升三倍,在vit模型中可以达到87.8的精度。

模型结构

  • 理解:对图片进行切割,被盖住的用灰色演示。未盖住的图片放入encoder,得到特征。拉长,将被盖住的块放回原来的位置,恢复为原始图片。灰色的为位置信息。输入解码器中,解码器进行重构。
2.Introduction
  1. 尽管有很多人讲BERT拓展到了cv的应用,但仍然落后于NLP。什么使得带掩码的自编码模型在CV和NLP上不一样?

    1. 在卷积窗口,不容易将MASK的词放进去。Transformer里一个mask是一个特定的词,但卷积里掩码无法区分边界,(无法将掩码里的像素识别为特殊的东西)(通过ViT解决)
    2. 二者的信息密度不同。图像有冗余的像素,为了鼓励学习到更多信息,会屏蔽高比例的随机补丁。避免学习局部,从而学习整体。
    3. 像素级的解码器要比nlp的复杂。

    MAE从输入图像中屏蔽随机块,并在像素空间中重建缺失的块。它有一个非对称的编码器解码器设计。我们的编码器只操作补丁的可见子集(没有掩码标记),解码器重构遮挡的块。可以减轻计算开销。

3. MAE结构
  1. Masking

    和ViT一样将图片分割。每一格为一个patch。

    random sample一些保留。

  2. 编码器。

    与ViT一样,但是只对未遮盖的做编码,把每一块拿出来做线性投影,然后加上位置信息。投入多个transformer进行训练。

  3. 解码器。

    解码器的输入是由1.编码的可见patch通过编码器得到的潜在表示2.掩码标记。

    被盖住的块可以通过共享的同样向量来表示,向量的值可以通过学习得到。

    类似一个transformer,所以应该加入位置信息使用。(不确定:是否对编码的潜表示再加上。)

    解码器一般只在预训练时使用,其他任务只使用编码器即可。

  4. 重构原始像素。

    解码器最后为线性层。reshape原始结构,还原像素信息。损失函数使用的是均方误差MSE。只计算被遮住patch的损失。

  5. 实现。

    首先对patch进行线性投影,加上位置信息,生成token列。再把序列随机shuffle,按照屏蔽比删除列表后面的部分,完成随机采样。

    在解码时,将向量长度补充完整,加上位置信息,重新还原为原来的位置。使得不需要任何稀疏的操作(为什么)。

4. 实验
  1. ImageNet
    1. 先做子监督与训练,在相同数据集上做有label的监督训练。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值