Motivation
- 利用较少的标记数据来进一步利用大规模的无标记数据进行半监督/自监督学习
- 用teacher模型生成伪标签训练studen模型,并通过加入噪声使student模型由于teacher模型,迭代此过程以得到更优的模型
原理
- 基于self-training的teacher-student框架
- 用标记数据训练teacher模型
- 用teacher模型对大规模的无标记数据生成伪标签
- 用labelled data和具有伪标签的unlabelled data共同训练student模型
- 新的student模型作为teacher模型重复上述三步,本文实验中重复了三次
- Noisy Student Training
在训练student模型时增加噪声
(文中具体添加的噪声包括:
输入噪声:RandAugment data augmentation
模型噪声:dropout、stochastic depth)
加入噪声是非常关键的:
如果没有噪声,studen模型的训练结果只能无限毕竟teacher模型,但不会超过。
模型结构
- 详见论文实验部分
要点在于:
- student模型如果比teacher模型更大的话,效果会更好