半监督学习:少量数据wiz label + 大量数据without label
论文:Temporal Ensembling For Semi-supervised Learning
首先引入一个background knowledge,
Exponential Moving Average:
为撒要叫exponential呢?从公式中可以看到,在当前的vt中,时间上更久远的v所占的成分呈指数级下降,作为对比,Simple Moving Average则是等权平均一段时间内的序列值
Π-model:对网络做dropout regularization(随机丢弃其中的一部分参数),同一输入(无标签数据)复制两份随机加上input augmentation(如翻转、平移、遮挡等)放到网络里跑,输出的差值平方加到原来的损失中进行梯度下降