[半监督学习] Mean teachers are better role models

码侯烧酒

已于 2022-02-23 21:28:16 修改

阅读量2k

点赞数 4

分类专栏：论文文章标签：机器学习深度学习

于 2022-01-26 17:10:54 首次发布

本文链接：https://blog.csdn.net/by6671715/article/details/122672619

版权

论文专栏收录该内容

27 篇文章 15 订阅

订阅专栏

此前的 Temporal ensembling Model 中存在一个问题, 即在每个 epoch 只进行一次 EMA, 因此在学习大型数据集时, Temporal Ensembling 成变得比较笨拙, 且无法实现模型的在线训练. 为了克服这个问题, 文中提出了 Mean Teacher, 能在每个 epoch 中的每个 step 进行模型权重的 EMA. 也就是将原来计算输出向量 $\tilde{z}$ 的过程变成了计算整个网络的参数 $\theta$ .

论文地址: Mean teachers are better role models
代码地址: https://github.com/CuriousAI/mean-teacher
会议: NeurIPS 2017
任务: 分类

Mean Teacher

Mean Teacher 思想比较简单, 是对 Temporal ensembling 的改进. 与 Temporal Ensembling Model 相比, 在 Mean Teacher 中, 将原始模型看作 Student Model, 然后新添加一个架构相同的 Teacher Model. Teacher Model 更加健壮, 可以指导 Student Model 学习. 其中, Teacher 的参数由 Student 计算指数移动平均值(EMA)得到, 见式(2).

Mean Teacher 中一致性损失 $J$ 定义如下:
$J(\theta)=\mathbb{E}_{x,\mu',\mu}[\vert \vert f(x,\theta',\mu')-f(x,\theta,\mu))\vert\vert^2] \tag{1}$
$\theta'_t=\alpha\theta'_{t-1}+(1-\alpha)\theta_t \tag{2}$
其中, $\theta_t$ , $\theta'_t$ 分别为 Student 和 Teacher 的参数, $\mu$ , $\mu'$ 分别为 Student 和 Teacher 的扰动(噪声). 当 $\alpha=0$ 时, Mean Teacher Model 与 $\Pi$ -model 在形式上等价.

算法流程

Mean Teacher 算法模型如下:
在这里插入图片描述
对于有标记样本 ${(x_i,y_i)\}$ :

1.将样本 $x_i$ 输入到 Student Model, 然后得到预测标签 $\hat{y}_i$ .
2.构造损失函数 $L_1(y_i,\hat{y}_i)$ , 一般使用交叉熵.

对于所有样本 ${(x_l)\}$ :

1.将 ${(x_l)\}$ 同时输入到 Student 及 Teacher Model, 然后得到预测标签 $y_{l1}$ , $y_{l2}$ .
2.构造 $y_{l1}$ , $y_{l2}$ 的损失函数 $L_2$ , 文中使用 MSE, 见上面式(1).
3.通过总损失函数 $L_1+\lambda L_2$ 梯度下降, 更新 Student Model 参数 $\theta$ , 然后通过 EMA 更新 Teacher Model 参数 $\theta'$ .

码侯烧酒

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
[半监督学习] Mean teachers are better role models

此前的 Temporal ensembling Model 中存在一个问题, 即在每个 epoch 只进行一次 EMA, 因此在学习大型数据集时, Temporal Ensembling 成变得比较笨拙, 且无法实现模型的在线训练. 为了克服这个问题, 文中提出了 Mean Teacher, 能在每个 epoch 中的每个 step 进行模型权重的 EMA. 也就是将原来计算输出向量 $\tilde{z}$ 的过程变成了计算整个网络的参数 $\theta$.
复制链接

扫一扫

专栏目录