DeiT III（Meta）论文解读

本文链接：https://blog.csdn.net/ooooocj/article/details/140757956

official implementation：https://github.com/facebookresearch/deit

出发点

本研究旨在重新审视ViT的监督训练方法，并提出一种基于ResNet-50训练方法的简化版新训练策略。与现有的自动数据增强方法不同，本研究提出了一种简单的数据增强策略，并在图像分类、迁移学习和语义分割任务中进行了评估，结果表明该方法显著优于之前的完全监督训练方法。

创新点

本文基于ResNet strikes back这篇文章的训练策略，提出了三点改进，具体包括：

3-Augment：是一种简单的数据增强策略，灵感来源于自监督学习。令人惊讶的是，在ViT上，它比通常使用的automatic/learned数据增强方法例如RandAugment的效果更好。
Simple Random Cropping：在大数据集例如ImageNet-21k上预训练时，它比Random Resize Cropping的效果更好。
A lower resolution：训练时采用更低的分辨率减少了训练和测试阶段的分辨率差异。作者观察到对于最大的模型，它还起到了防止过拟合的正则效果。

方法介绍

Stochastic depth 是一种正则化方法，对深度网络的训练特别有用。本文在所有层中采用统一的drop rate，并根据模型大小调整。如下

LayerScale. 本文采用了LayerScale（具体介绍见CaiT（ICCV 2021，Meta）论文与代码解析-CSDN博客）。该方法本来引入是用来解决更深的ViT的收敛问题，本文的训练过程不存在收敛问题，但作者发现对于最大的模型，使用LayerScale可以获得更高的精度。原始的LayerScale根据网络的深度进行初始化，本文进行了简化，对所有的模型统一使用 \(10^{-4}\) 进行初始化。

Binary Cross entropy. 在ResNet strikes back中作者采用了BCE而不是常用的CE来训练ResNet-50，原文的结论是与CE相比，BCE在精度方面的收益有效，但当使用Mixup和Cutmix时，这种选择更方面。在ImageNet-1k上不用本文的训练策略训练更大的ViT时，BCE loss确实带来了显著的性能提升。但当在ImageNet-21k上训练时，并没有得到很明显的改进，因此在ImageNet-21k上预训练以及后续的微调还是采用CE。

3-Augment

作者受自监督学习的启发提出了一个简单的数据增强策略，它只考虑下面三种变换：

Grayscale：这有利于颜色不变形，并更多地关注形状。
Solarization：它在颜色上添加了强烈的噪声，从而对颜色强度的变化更加robust，最终更多地关注形状。
Gaussian blur：为了稍微改变图像中的细节。

对于每张图片，通过均匀概率从这三种变换中只选择一种，此外还包括常用的color-jitter和horizontal flip。

图2是使用这三种变换的一些图片示例

表2是对不同增强方法消融实验的结果

Simple Random Cropping（SRC）

Random Resize Cropping（RRC）作为一种常用的正则化方法来限制模型的过拟合。这种数据增强方法在ImageNet-1k上被认为是用来防止过拟合的重要方法，但这种裁剪策略在训练图片和测试图片的宽高比以及目标对象的大小方面引入了差异。由于ImageNet-21k包含更多的图片，它本文就不太容易过拟合。因此作者质疑在更大的数据集上训练时，RRC正则化的有点是否弥补了它的缺点。

Simple Random Crop（SRC）是本文提出的一种更简单的裁剪方法，它类似于AlexNet中原始的裁剪方法：resize图片使短边匹配训练分辨率，然后在每条边都使用4个像素的reflect padding，最后沿x轴随机裁剪出一个训练分辨率大小的正方形。

图3展示了RRC和SRC裁剪出的box，RRC提供了多样性以及不同大小的crop，而SRC裁剪的区域占据了原始图片的更大部分并保持了宽高比，但多样性较少，crop有更明显的重叠。当在ImageNet-1k上训练时，RRC的效果更好。

但在ImageNet-21k上训练时，过拟合的风险更小，此时RRC提供的正则化和多样性就不那么重要了。相反此时SRC提供了减少物体大小差异和宽高比的优势。更重要的是，它使crop出的图片和实际标签一致的概率更高，因为RRC是一种更激进的cropping方法很多时候实际的标签目标都不在crop出的图片中，图4是一些示例。