半监督学习之Mean teachers

最新推荐文章于 2023-10-07 17:14:21 发布

我想静静，

最新推荐文章于 2023-10-07 17:14:21 发布

阅读量3.5k

点赞数 2

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_42764932/article/details/112979993

版权

深度学习专栏收录该内容

27 篇文章 9 订阅

订阅专栏

半监督学习Mean teachers

在这里插入图片描述
网络整体的架构包括两个部分student model和teacher model：

student model的网络参数通过学习，梯度下降获得。
teacher model的网络参数通过student model的网络参数的moving average得到。

student model的网络参数更新方法：

通过损失函数的梯度下降更新参数得到。
其中损失函数包括两个部分：

第一部分是有监督损失函数，保证有标签训练数据拟合；

第二部分是无监督损失函数，主要是保证student model的预测结果和teacher model的预测结果尽量的相似。因为teacher model的参数是student model的网络参数的moving average，所以，对于任何新来的数据，预测结果都不应该有太大的抖动。
如果如果模型是正确的，那么前后两个模型的预测标签应该是接近的，并且变化较小的，那么使模型向使两个模型预测结果接近的方向移动，就是向groudtruth model移动。

teacher model的网络参数的更新方法：

通过student model网络参数的moving average得到
$\theta_{t}^{\prime}= \alpha \theta _{t-1}^{\prime}+(1- \alpha)\theta _{t}$

基本流程

假设有一批训练样本X1，X2，其中X1使有标签数据（对应标签是z1），X2使无标签数据。具体的训练过程如下：

把这一批样本作为student网络输入，然后分别得到输出的标签：ys1，ys2；
构造对于有标签数据X1的损失函数，有标签分类损失函数L1(z1，ys1)；
把这批数据作为teacher model的输入，得到输出的标签yt1，yt2；
构造无监督损失函数L2，论文中采用MSE损失函数： $\theta)=E_{x, \eta ^{\prime}}, \eta \left[ ||f(x, \theta ^{\prime}, \eta ^{\prime})-f(x, \theta , \eta)||^{2}\right]$
总损失函数L1+L2梯度下降，更新student model的网络参数，通过moving average更新teacher model的网络参数 $\theta_{t}^{\prime}= \alpha \theta _{t-1}^{\prime}+(1- \alpha)\theta _{t}$

我想静静，

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
半监督学习之Mean teachers

半监督学习Mean teachers网络整体的架构包括两个部分student model和teacher model：student model的网络参数通过学习，梯度下降获得。teacher model的网络参数通过student model的网络参数的moving average得到。student model的网络参数更新方法：通过损失函数的梯度下降更新参数得到。其中损失函数包括两个部分：第一部分是有监督损失函数，保证有标签训练数据拟合；第二部分是无监督损失函数，主要是保
复制链接

扫一扫

专栏目录