【半监督学习】1、Mean Teacher | 对 student model 权重进行 EMA 来加速更新 teacher model

呆呆的猫

已于 2023-03-17 13:43:21 修改

阅读量3.4k

点赞数 7

分类专栏：半监督学习文章标签：学习深度学习机器学习

于 2023-03-17 13:42:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiaoyangwm/article/details/129617716

版权

半监督学习专栏收录该内容

5 篇文章

订阅专栏

在这里插入图片描述

文章目录

论文：Mean teachers are better role models: Weight-averaged consistency targets improvesemi-supervised deep learning results

代码：https://github.com/CuriousAI/mean-teacher

出处：NIPS2017

一、背景

本文的目标是在学生模型和教师模型完全相同的情况下，从学生模型中逐步形成一个表现更好的教师模型。

首先，由于模型的 softmax 输出通常不能获得在训练数据之外的准确预测，所以可以考虑在训练数据中添加一些噪声来缓解，有噪声的教师模型可以产生更准确的结果，如图 1d 所示

其次， $\pi$ 模型 [13] 通过时间集成来进一步的改进教师模型。但每个目标每次迭代值更新一次，学习到的信息注入非常缓慢。

故本文提出了 Mean Teacher，通过平均模型的权重而不是预测的结果来更新 Teacher 模型。

在这里插入图片描述

二、方法

本文方法结构框架如图 2 所示

Teacher model 的模型参数是通过 Student model 的模型参数指数移动平均来获得的。

在这里插入图片描述

总体过程：

假设有带标签的数据 labeled data $x_1$ 和无标签的数据 unlabeled data $x_2$ ，对种数据分别添加噪声
首先，将有标签的数据 $x_1$ 输入学生模型，得到预测结果 $y^s_1$ ，并计算交叉熵损失为 loss1
然后，将无标签的数据 $x_2$ 输入学生模型，得到预测结果 $y^s_2$ ，同时，将无标签的数据 $x_2$ 输入教师模型，得到预测结果 $y^t_2$ ，求两个预测结果的损失 loss2，即 $J(\theta)$ ，也就是求两个输出的均方误差
接着，计算总损失 loss1 + loss2
最后，学生模型的权重通过梯度反向传播更新，教师模型的权重通过指数移动平均来更新

两个分布的一致性的程度 $J(\theta)$ 定义为学生模型的预测（权重为 $\theta$ ，噪声为 $\eta$ ）与教师模型的预测（权重为 $\theta'$ ，噪声为 $\eta'$ ）之间的期望差距：

在这里插入图片描述

定义教师网络第 t 个 training step 的参数 $\theta_t'$ 为第 t-1 个 traing step 的参数加上当前学生网络的参数， $\alpha$ 为系数

在这里插入图片描述

三、效果

在这里插入图片描述

在这里插入图片描述

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

呆呆的猫 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。