论文阅读——Mean teachers are better role models

最新推荐文章于 2023-09-02 14:53:08 发布

weixin_42999642

最新推荐文章于 2023-09-02 14:53:08 发布

阅读量649

点赞数 1

文章标签： ar

本文链接：https://blog.csdn.net/weixin_42999642/article/details/120947467

版权

摘要： Temporal Ensembling方法通过预测的标签的EMA，并且通过保证ensemle 模型和 trained模型预测标签的连续一致性，从而保证训练得到的ensemle模型尽可能的接近groud truth模型。这里可以理解为，如果如果模型是正确的，那么前后两个模型的预测标签应该是接近的，并且变化较小的，那么使模型向使两个模型预测结果接近的方向移动，就是向groudtruth model移动。这种方法，每一个epoch标签数据仅仅会改变一次，对于大规模数据，或者在线学习问题，该方法就不能很好的适用。本文提出了平均权重的方法，而不是Temporal Ensembling中采用的label平均的方法，可以在每一个training step更新teacher model，及时的指导student model的学习。在ImageNet 2012上，使用10%的labels，将top5的精度误差率从35.24%下降9.11%。

标题： Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results
作者： Antti Tarvainen等
年份： NIPS 2017
Github: https://github.com/CuriousAI/mean-teacher

2. Mean Teacher

1）算法流程
在这里插入图片描述

第一步，构建一个普通的监督模型；
第二步，把监督学习模型对它copy一份，原模型叫做student,另一个叫teacher;
第三步，在每训练步（step）中，使用同样的minibatch输入到student与teacher模型中，但在输入数据前分别加入随机增强或者噪声；
第四步，加入student与teacher输出的一致性损失函数J（consistency cost）；
第五步，优化器只更新student的权重；
第六步，每个训练步（step）之后，采用student权重的EMA（指数移动平均）更新teacher权重；

2）核心点：

与П-model类似，有两个模型，但Mean teacher采用了两个不同的模型（student、teacher）
看做是Temporal ensembling的改进版，在Temporal ensembling中，采用的是每epoch的指数移动平均值来聚合历史数内容，而Mean teacher则是在每训练step进行对Student的权重进指数移动平均；

3. Result

在这里插入图片描述

weixin_42999642

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
论文阅读——Mean teachers are better role models

Temporal Ensembling方法通过预测的标签的EMA（exponential moving average），并且通过保证ensemle 模型和 trained模型预测标签的连续一致性，从而保证训练得到的ensemle模型尽可能的接近groud truth模型。这里可以理解为，如果如果模型是正确的，那么前后两个模型的预测标签应该是接近的，并且变化较小的，那么使模型向使两个模型预测结果接近的方向移动，就是向groudtruth model移动。这种方法，每一个epoch标签数据仅仅会改变一次，对于
复制链接

扫一扫