【论文阅读】Dual Student: Breaking the Limits of the Teacher in Semi-supervised Learning-CSDN博客

本文链接：https://blog.csdn.net/ssjq123/article/details/126256866

DualStudent是一种半监督学习方法，通过引入第二个学生模型替代教师模型并定义稳定约束，解决了传统方法中的性能瓶颈问题。该方法提出了稳定样本的概念，并定义了稳定损失函数，使知识在两个独立的学生模型间更高效地传递。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《Dual Student: Breaking the Limits of the Teacher in Semi-supervised Learning》

1. 摘要

最近，基于一致性的方法在半监督学习（SSL）中取得了最先进的结果。这些方法总是涉及两个角色，显式或隐式教师模型和学生模型，并通过一致性约束来惩罚不同扰动下的预测。然而，这两个角色的权重是紧密耦合的，因为老师本质上是学生的指数移动平均线 (EMA)。在这项工作中，我们表明耦合的 EMA 教师会导致性能瓶颈。为了解决这个问题，我们引入了 Dual Student，它用另一个学生代替了老师。我们还定义了一个新概念，稳定样本，然后为我们的结构设计了一个稳定约束，使其可训练。此外，我们讨论了我们方法的两种变体，它们产生了更高的性能。

Notice：

这篇论文是基于Mean Teacher进行改进的。
本文表达在原有的Mean Teacher中，Teacher和Student两个模型是耦合在一起的，随着epoch的增加，会导致瓶颈。
本文的贡献，就是提出两个独立模型参与训练，因为是独立的，所以提出稳定约束来约束知识在两个模型之间的传输。

2. 算法描述

在这里插入图片描述

看懂Loss函数的定义，就看懂了方法。本次的介绍采用自顶向下的顺序。
$\mathcal{L}^i = \mathcal{L}^i_{cls}+\lambda_1\mathcal{L}^i_{con}+\lambda_2\mathcal{L}^i_{sta}$

其中，总体损失可以分为三个部分：

$\mathcal{L}^i_{cls}$ 有监督损失
$\mathcal{L}^i_{con}$ 一致性损失，模型针对扰动是否稳定
$\mathcal{L}^i_{sta}$ 稳定损失，也是本文的主要贡献

值得注意的是，稳定损失的设定是为了可靠的经验在两个模型之间流动。其中主要涉及到两个问题：

怎样才是可靠的？
经验如何流动？

2.1 怎样才是可靠的？

Deﬁnition 4.1 (Stable sample). Given a constant $\xi \in [0, 1)$ ,
a dataset $\mathcal{D} \subseteq \mathbb{R}^m$ that satisﬁes the smoothness assumption
and a model $\mathcal{D} \rightarrow [0, 1]^n$ that satisﬁes $f(x)\|_1 = 1$ for
all $\in \mathcal{D}$ , $x$ is a stable sample with respect to $f$ if:

$\forall \overline{x} \in \mathcal{D}$ near $x$ , their predicted labels are the same.
$x$ satisﬁes the inequality: $\|f(x)\|_{\infty} > \xi$ .

上面的只是定义，在实际的数据集上如何计算呢？

$\mathcal{R}^i_x = \{\mathcal{P}^i_x = \mathcal{P}^i_{\overline{x}}\} \& (\{\mathcal{M}^i_x > \xi\}_1 \| \{\mathcal{M}^i_{\overline{x}} > \xi\}_1) , \text{where} \mathcal{M}^i_x = \| f(\theta_i, x) \|_{\infty} \tag{1}$

Eq1，定义了对于模型怎么样的数据算是稳定的。

2.2 有多可靠？

$\epsilon^i_x = \| f(\theta_i, x) − f(\theta_i, \overline{x}) \|^2 \tag{2}$

Eq2, 量化稳定性，使得同一数据在不同模型上的稳定性能够比较。

2.3 $f_{\theta_i}$ 怎么变得像 $f_{\theta_j}$ 一样可靠？

最后，给出稳定损失的定义：
$\mathcal{L}^i_{sta}= \begin{cases} \{\epsilon^i_x > \epsilon^j_x\}_1\mathcal{L}_{mse}(x), & \mathcal{R}^i_x = \mathcal{R}^j_x = 1 \\ \mathcal{R}^j_x\mathcal{L}_{mse}(x), &\text{otherwise}. \end{cases}\tag{3}$