【自监督学习】 MAE阅读笔记

最新推荐文章于 2024-07-21 07:30:00 发布

echoliuy

最新推荐文章于 2024-07-21 07:30:00 发布

阅读量814

点赞数

分类专栏：学习记录

本文链接：https://blog.csdn.net/echoliuy/article/details/127041157

版权

4 篇文章 0 订阅

订阅专栏

Masked Autoencoders Are Scalable Vision Learners

bert+ViT

MAE的主要目的是进行迁移学习的预训练

随即盖住一些图片中的块（patches），并重建被盖住块中的所有像素。

模型结构

理解：对图片进行切割，被盖住的用灰色演示。未盖住的图片放入encoder，得到特征。拉长，将被盖住的块放回原来的位置，恢复为原始图片。灰色的为位置信息。输入解码器中，解码器进行重构。

尽管有很多人讲BERT拓展到了cv的应用，但仍然落后于NLP。什么使得带掩码的自编码模型在CV和NLP上不一样？
1. 在卷积窗口，不容易将MASK的词放进去。Transformer里一个mask是一个特定的词，但卷积里掩码无法区分边界，（无法将掩码里的像素识别为特殊的东西）（通过ViT解决）
2. 二者的信息密度不同。图像有冗余的像素，为了鼓励学习到更多信息，会屏蔽高比例的随机补丁。避免学习局部，从而学习整体。
3. 像素级的解码器要比nlp的复杂。
MAE从输入图像中屏蔽随机块，并在像素空间中重建缺失的块。它有一个非对称的编码器解码器设计。我们的编码器只操作补丁的可见子集(没有掩码标记)，解码器重构遮挡的块。可以减轻计算开销。

Masking

和ViT一样将图片分割。每一格为一个patch。

random sample一些保留。
编码器。

与ViT一样，但是只对未遮盖的做编码，把每一块拿出来做线性投影，然后加上位置信息。投入多个transformer进行训练。
解码器。

解码器的输入是由1.编码的可见patch通过编码器得到的潜在表示2.掩码标记。

被盖住的块可以通过共享的同样向量来表示，向量的值可以通过学习得到。

类似一个transformer，所以应该加入位置信息使用。（不确定：是否对编码的潜表示再加上。）

解码器一般只在预训练时使用，其他任务只使用编码器即可。
重构原始像素。

解码器最后为线性层。reshape原始结构，还原像素信息。损失函数使用的是均方误差MSE。只计算被遮住patch的损失。
实现。

首先对patch进行线性投影，加上位置信息，生成token列。再把序列随机shuffle，按照屏蔽比删除列表后面的部分，完成随机采样。

在解码时，将向量长度补充完整，加上位置信息，重新还原为原来的位置。使得不需要任何稀疏的操作（为什么）。