一、想法构思
当时,看到MAE论文的时候,我就想能不能用MAE+生成对抗网络实现图像的超分?!所以有了这个实验。
下面先介绍MAE干了什么。MAE做的是图像分类的任务(但不只用于图像分类,对其他下游任务都具有很好的泛化性,这篇论文只是以图像分类任务为例子),MAE有两个过程,一个是预训练的过程,一个是细化微调的过程:
-
预训练:将一幅输入图像进行随机掩码,接着将未掩码的图像块进行编码(encoder),将encoder的输出结果与之前掩码的图像块进行拼接(拼接的位置要与原输入图像的各个图像块位置相同),最后将拼接的结果输入decoder,decoder输出相同的维度,进行原图像的重建。如下图所示:
-
细化微调:将预训练好的encoder进行保留,去掉预训练的decoder,设计一个新的decoder用于做图像分类,然后接着去训练,最后实现图像分类。
看到这可能会有人疑惑,那为什么要做预训练进行图像的重构呢?不直接进行图像分类任务呢?简单地说,对与一幅掩码75%的图像,预训练网络能大致的还原出原图像,说明了这个网络很好的学习到了这幅图像的语义信息,比如,把一幅狗的图像掩盖75%,网络能大致还原狗的轮廓,说明这个网络学习到了这个“狗”这个含义,那么再去利用这个网络做图像分类,它就能很好的分类"狗"这个类别,对于其他类别也是一样的效果。
未完待续!有时间会不时慢慢更新,不断编辑,一步步放出代码!可能有点长!