I Introduction
当一个对象作轻微地改变,人类仍然认为它是同一个对象。相对地,一个分类模型应支持提供一致的输出相似的数据点的功能。实现这一目标的一种方法是向模型的输入添加噪声。为了使模型的学习保持更抽象的不变性,噪声可以被添加到intermediate representations,洞察力,促使许多正则化技术,如Dropout[ 28 ]。正则化模型最小化了每个数据点周围流形上的开销,而不是最小化输入空间的零维数据点的分类cost,从而将决策边界推离标记的数据点(图1b)。
由于未分类样本的分类cost是不确定的,噪声本身的正则化不利于半监督学习。为了克服这个问题,这Γ模型[ 21 ]计算了每个数据点和噪声,然后计算了两个预测之间的consistency cost。在这种情况下,模型假设了Teacher和Student的两个角色。一个作为一个Student,它像以前一样学习;另一个作为一个Teacher,它产生目标,然后被作为学习的Student使用。由于模型本身产生目标,它们很可能是不正确的。如果给生成的目标赋予太多的权重,则不一致性的代价要大于错误分类的代价,从而阻碍了对新信息的学习。实际上,这种confirmation bias可能会使得模型的效果变差(图1C),但是这种危险可以通过提高目标的质量而得到缓解的。
提高目标质量至少有两种方法。一种方法是选择在representations上加扰动,但这并不仅仅是直接加加性或乘性的噪声。另一种方法是选择一个Teacher Model,而不是简单地复制Student Model。Miyato et al. [16] 已经采取了第一种方法,并表明虚拟对抗训练(Virtual Adversarial Training)可以产生令人印象深刻的结果。论文采取第二种方法,也表明它也提供了显著的效果。据论文所知,这两种方法是兼容的,它们的组合可能产生更好的结果。然而,对它们的综合影响的分析不在本文的讨论范围之内。
论文的目标是在没有额外训练的情况下,从Student Model中形成一个更好的Teacher Model。作为第一步,考虑到一个模型的softmax输出通常不提供准确的预测外的训练数据。在推理时间[ 4 ]中增加噪声给模型部分减轻,因此,一个吵闹的Teacher可以产生更精确的目标(图一)。这种方法被用于Pseudo-Ensemble Agreement [ 2 ],最近已被证明在半监督图像分类方面很有效[ 13, 23 ]。Laine & Aila [13] 将这种方法命名为Π模型;论文将使用此名称,并且这个版本作为论文实验的baseline。
Π模型可以通过Temporal Ensembling [ 13 ]进一步改善,他为每个训练样本的预测保持了指数移动平均线(EMA)。在每一个训练step中,在一个minibatch中所有样本的EMA预测将会基于新的预测进行更新。因此,每个样本的EMA预测是由模型当前版本和其评估同一个样本的更早的版本集成来形成的。这种集成提高了预测结果的质量,并利用他们作为Teacher的预测可以改善结果。然而,由于每一个目标每一次只更新一次,所以学习信息被缓慢地纳入训练过程中。对于更大的数据集,更长的更新跨度和在on-line学习的情况下,目前还不清楚Temporal Ensembling是如何被使用的。(评估所有目标的次数一个epoch可以超过一次,但保持评估跨度不变的情况下则需要每一个epoch进行 O(n2) 次评估,其中n是训练样本的数量。)
2. Mean Teacher
为了克服Temporal Ensembling的局限性,论文提出了平均加权权重averaging model weights代替prediction的想法。由于Teacher Model是consecutive Student Model的平均值,所以论文称之为Mean Teacher方法(图2)。随着training step的增加,averages model weights倾向于产生一个比直接使用最终权重更精确的模型[ 19 ]。论文可以在训练中利用这一点来构建更好的目标。Teacher Model使用Student Model的EMA权重,而不是与Student Model共享权重。现在,它可以在每一个step而不是在每一个epoch聚集信息。此外,由于weight averages改善了所有层的输出,而不仅仅是top层的输出,目标模型具有更好的intermediate representations。这些方面使得Temporal Ensembling具有两个实用的优点:第一,更准确的目标标签导致Student和Teacher Model之间更快地feedback loop,使得测试准确率更好。第二,这种方法适用于衡量数据集和on-line learning的方法。
更准确地说,论文将consistency cost定义为Student Model预测(权重θ和噪声η)与Teacher Model预测(权重和噪声)之间的expected distance。
Π模型,Temporal Ensembling 和Mean Teacher之间的区别在于如何生成Teacher predictions。而Π模型使用,而Temporal Ensembling用 successive predictions的加权平均来近似,论文将在训练步骤t 的定义为连续θ权重的EMA:
在α是平滑系数超参数。三种算法之间的另外一个区别是,Π模型是用来训练的而Temporal Ensembling和Mean Teacher则把它作为一个常数来进行优化。
论文可以采用随机梯度下降来近似在每个训练step的consistency cost函数J的采样噪声。在Laine & Aila [13]中,论文用均方误差(MSE)作为论文大多数实验中的consistency cost。
3. Expriment
在实验中,Mean Teacher提高了测试集的准确性,并使用比Temporal Ensembling 更少的标签进行训练。在不改变网络结构的情况下,Mean Teacher在250个SVHN上的误差率达到了4.35%,超过了用1000个标签训练的Temporal Ensembling 。实验还表明,良好的网络结构对性能至关重要。实验中还结合了Mean Teacher和Residual Networks改进了显著提高了CIFAR-10的测试准确率,其中4000个标签的比例从10.55%提高到了6.28%,而ImageNet 2012提高了10%,准确率从35.24%提高到9.11%。