MeanTeacher文章解读+算法流程+核心代码详解

ccjoffrey

已于 2025-06-09 00:07:56 修改

阅读量9.8k

点赞数 13

CC 4.0 BY-SA版权

分类专栏：半监督算法文章标签：机器学习监督学习 python

于 2021-07-29 20:04:33 首次发布

本文链接：https://blog.csdn.net/qq_41380292/article/details/119218902

半监督算法专栏收录该内容

5 篇文章

订阅专栏

本文解析了MeanTeacher算法的实施过程，包括数据预处理中的双流输入和一致性损失计算，以及如何利用教师模型指导学生模型训练。核心思想在于利用带噪声样本的预测一致性来提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MeanTeacher

本博客仅做算法流程疏导，具体细节请参见原文

算法流程

MeanTeacher算法流程图

代码详解

 train_transform = data.TransformTwice(transforms.Compose([
        data.RandomTranslateWithReflect(4),
        transforms.RandomHorizontalFlip(),
        transforms.ToTensor(),
        transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2470,  0.2435,  0.2616))]))

    eval_transform = transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2470,  0.2435,  0.2616))
    ])

这是图像的预处理，TransformTwice可以读两个数据流。
在训练阶段，有：

 for i, ((input, ema_input), target) in enumerate(train_loader):

可以看到，通过train_transform出来的batch中，有两个数据流input和ema_input，其数据为同组数据加不同噪声后的形式，即算法流程中的 $X^{'}_u,X^{'}_s]$ 和 $X^{''}_u,X^{''}_s]$ 。每个数据流中包含了一定数量的有标记样本和无标记样本。target是这两个数据流的标签，其中无标记样本的标签为-1.

class_loss = class_criterion(model_out, target_var) / minibatch_size

 consistency_weight = get_current_consistency_weight(epoch)
 consistency_loss = consistency_weight * consistency_criterion(model_out, ema_logit) / minibatch_size

class_loss正如算法流程中的 $Loss_1$ ，是stu模型输出结果和标签的CrossEntropyLoss；consistency_loss如算法流程中的 $Loss_2$ ，是两个 $X^{'}_u,X^{'}_s]$ 和 $X^{''}_u,X^{''}_s]$ 的一致性损失，文章中直接选择的MSE损失函数。为了让模型训练更合理， $Loss_2$ 有一个渐增系数consistency_weight。

loss.backward()  # student 模型的更新
optimizer.step()
global_step += 1
update_ema_variables(model, ema_model, args.ema_decay, global_step)  # teacher 模型的更新