Noisy Student（CVPR 2020）论文解读-CSDN博客

本文链接：https://blog.csdn.net/ooooocj/article/details/137843338

paper：Self-training with Noisy Student improves ImageNet classification

official implementation：https://github.com/google-research/noisystudent

本文的创新点

本文提出了一种新的半监督方法Noisy Student Training，主要包括三步：（1）在有标签数据上训练一个教师模型（2）利用教师模型在无标签数据上生成伪标签（3）结合有标签的图片和伪标签的图片训练学生模型。重复迭代这个过程，将学生作为教师重新生成伪标签，然后再训练一个新的学生模型。

Noisy Student Training从两个方面提高自训练和蒸馏的能力。首先，它使用的学生模型比教师模型更大（或至少相等），这样学生可以更好的从一个更大的数据集中学习。其次，它给学生模型增加的噪声，这迫使学生模型更努力的从伪标签中学习。

方法介绍

算法1概述了Noisy Student Training的过程。算法的输入包括有标签和无标签的图片。我们首先在有标签图片上用交叉熵损失训练一个教师模型。然后用教师模型在无标签图片上生成伪标签。伪标签可以是soft（连续分布）或hard（one-hot分布）。然后我们训练一个学生模型，在标签图片和无标签图片上最小化交叉熵损失。最后我们迭代这个过程，将训练好的学生模型作为教师模型在无标签数据上生成新的伪标签，并训练一个新的学生模型。算法的过程如图1所示

本文方法的关键改进在于给学生模型增加噪声，并使用不小于教师模型的学生模型。这使得该方法不同于知识蒸馏：1）蒸馏中通常不适用噪声 2）蒸馏中通常使用比教师小的学生模型。我们可以把本文的方法看作一种knowledge expansion，通过给学生模型足够的容量和更困难的学习环境（添加噪声），我们希望学生模型比教师更好。

作者在实验中使用了两种类型的噪声：输入噪声和模型噪声。输入噪声使用了数据增强方法RandAugment（具体见RandAugment（NeurIPS 2020）论文速读-CSDN博客），模型噪声使用了dropout和stochastic depth（见Stochastic Depth 原理与代码解析-CSDN博客）。

当应用于无标签数据时，噪声有一个重要的好处，即enforce决策函数在标签数据和无标签数据上的不变性。首先，数据增强是Noisy Student Training中一种重要的噪声方法，因为它迫使学生在同一张图片的不同增强变形上的预测一致性。具体来说，教师在干净的图片上生成高质量的伪标签，而学生则需要用增强后的图片来复制这些标签，即学生必须确保增强后的图片和原始图片是相同的类别。其次，当使用dropout和stochastic depth作为噪声时，教师模型在推理时（生成伪标签时）表现的像一个集成模型，而学生则像一个单一的模型。换句话说，学生被迫模仿一个更强大的集成模型。

Other Techniques 作者还使用了额外的trick：data filtering和balancing，这让Noisy Student Training的效果更进一步。具体来说，我们过滤掉教师模型推理时置信度低的图片，因为这些通常是out-of-doman图片。为了确保无标签图片的分布和训练集的分布相匹配，我们还需要平衡无标签图片中每个类别的数量，因为ImageNet中所有类别都有相似数量的标签图片。具体做法是，对于数量不够的类别进行复制，对数量太多的类别，只用置信度最高的图片。

最后作者还强调了下在实验中使用hard或soft伪标签Noisy Student的效果都很好。对于out-of-doman的无标签数据，soft伪标签的效果稍好些。

实验结果

实验细节

数据集. 有标签数据选用ImageNet数据集。无标签数据选用JFT数据集，并从中过滤掉ImageNet验证集中的图片。然后在剩下的图片上进行data filtering和balancing。首先用在ImageNet上训练的EfficientNet-B0模型为JFT中的每张图片预测一个标签，然后选择置信度大于0.3的图片。每个类别，选择置信度最高的130K张图片，如果本身不足130K的随机复制进行补齐。这样用于训练学生模型的图片共有130M张（实际只有81M，其它都是复制的）。

模型结构. 作者选择EfficientNet作为baseline模型，并进一步增大EfficientNet-B7得到EfficientNet-L2，后者并前者更深更宽但用了更小的输入分辨率。

训练细节. 对于有标签数据，batch size默认选择2048。有标签数据的训练时长和学习率根据batch size进行调整，具体来说，对于大于EfficientNet-B4的学生模型训练350个epoch，对于更小的学生模型训练700个epoch。训练350个epoch且batch size为2048时，初始学习率为0.128每个2.4个epoch衰减0.97，训练700个epoch时每个4.8个epoch进行衰减。

噪声. 对EfficientNet-B7和L2选择相同的噪声超参。其中最后一层stochastic depth的概率为0.8，其它层遵循linear decay rule。最后一层的dropout rate为0.5。对于RandAugment，选择两种随机变换，强度设置为27。

迭代训练. 作者实验得到的最好模型是将学生作为教师模型迭代三次得到的。首先在ImageNet上训练一个EfficientNet-B7作为教师模型。然后在无标签数据上训练一个EfficientNet-L2的学生模型，无标签数据的batch size是有标签数据的14倍。然后将这个EfficientNet-L2的学生模型作为教师模型再训练一个新的EfficientNet-L2的学生模型。最后再迭代一次，此时无标签的batch size设置有标签的28倍。

在ImageNet验证集上的结果如表2所示，用Noisy Student训练的EfficientNet-L2达到了88.4%的准确率，远超于之前EfficientNet系列的85.0%的准确率。提升的3.4%中0.5%来源于更大的模型，2.9%来源于Noisy Student Training，这表明Noisy Student Training对模型精度的影响比调整网络结构大得多。

此外，88.4%的精度还超过了之前采用FixRes ResNeXt-101 WSL的86.4%的SOTA，且后者使用了35亿张有标签的Instagram图片。