Mean Teacher学习笔记（一）

最新推荐文章于 2024-07-10 16:55:08 发布

Demon果

最新推荐文章于 2024-07-10 16:55:08 发布

阅读量1.3w

点赞数 8

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/demons2/article/details/109825597

版权

Mean Teacher学习笔记（一）

模型的核心思想：模型即充当学生，又充当老师。作为老师，用来产生学生学习时的目标，作为学生，利用老师模型产生的目标来学习。

为了克服Temporal Ensembling的局限性，我们建议平均模型权重而不是预测。教师模式是连续学生模式的平均值，因此我们叫它Mean teacher。与直接使用最终的权重相比，将模型权重平均到训练步骤会产生更准确的模型，在训练中可以利用这一点来构建更好的目标。教师模型使用学生模型的EMA权重，而不是与学生模型共享权重。同时，由于权值平均改善了所有层的输出，而不仅仅是顶层输出，目标模型有更好的中间表示。
—————————————————————————————————————————
在这里插入图片描述
通过梯度下降更新student模型的权重后，教师模型的权重被更新为学生权重的指数移动平均值。两个模型的输出都可以用于预测，但在训练结束时，教师预测更有可能是正确的。
—————————————————————————————————————————

定义一致性代价 $J$ 为学生模型预测和教师模型预测之间的期望距离：
在这里插入图片描述

我们定义在训练步骤 $t$ 中 $\theta'_{t}$ 是连续权值 $\theta$ 的EMA值：其中 $\alpha$ 是平滑系数超参数
在这里插入图片描述

关注

8
点赞
踩
37

收藏

觉得还不错? 一键收藏
0
评论
Mean Teacher学习笔记（一）

Mean Teacher学习笔记（一）模型的核心思想：模型即充当学生，又充当老师。作为老师，用来产生学生学习时的目标，作为学生，利用老师模型产生的目标来学习。为了克服Temporal Ensembling的局限性，我们建议平均模型权重而不是预测。教师模式是连续学生模式的平均值，因此我们叫它Mean teacher。与直接使用最终的权重相比，将模型权重平均到训练步骤会产生更准确的模型，在训练中可以利用这一点来构建更好的目标。教师模型使用学生模型的EMA权重，而不是与学生模型共享权重。同时，由于权值平均改善
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。