半监督学习Semi- Supervised Learning的一致性约束，一致正则损失

是否龙磊磊真的一无所有

已于 2023-08-02 11:21:26 修改

阅读量1.2k

点赞数

分类专栏：高效网络设计目标检测 CNN+深度学习文章标签：聚类机器学习计算机视觉人工智能半监督

于 2023-05-09 14:24:43 首次发布

本文链接：https://blog.csdn.net/qq_32998593/article/details/130579007

版权

CNN+深度学习同时被 3 个专栏收录

19 篇文章 8 订阅

订阅专栏

目标检测

15 篇文章 5 订阅

订阅专栏

高效网络设计

4 篇文章 0 订阅

订阅专栏

半监督学习的一致性约束分析

在现实生活中，无标签的数据易于获取，而有标签的数据收集起来通常很困难，标注也耗时和耗力。在这种情况下，半监督学习（Semi-Supervised Learning）更适用于现实世界中的应用，近来也已成为深度学习领域热门的新方向，该方法只需要少量有带标签的样本和大量无标签的样本，而本文主要介绍半监督学习的三个基本假设和三类方法。

1. Base Assumptions

在什么假设下可以应用半监督算法呢？半监督算法仅在数据的结构保持不变的假设下起作用，没有这样的假设，不可能从有限的训练集推广到无限的不可见的集合。具体地假设有：

1.1 The Smoothness Assumption

如果两个样本 $x_1$ ， $x_2$ 相似，则它们的相应输出 $y_1$ ， $y_2$ 也应如此。这意味着如果两个输入相同类，并且属于同一簇，则它们相应的输出需要相近，反之亦成立。

1.2 The Cluster Assumption

假设输入数据点形成簇，每个簇对应于一个输出类，那么如果点在同一个簇中，则它们可以认为属于同一类。聚类假设也可以被视为低密度分离假设，即：给定的决策边界位于低密度地区。两个假设之间的关系很容易看出。

一个高密度区域，可能会将一个簇分为两个不同的类别，从而产生属于同一聚类的不同类，这违反了聚类假设。在这种情况下，我们可以限制我们的模型在一些小扰动的未标记数据上具有一致的预测，以将其判定边界推到低密度区域。

1.3 The Manifold Assumption

（a）输入空间由多个低维流形组成，所有数据点均位于其上；

（b）位于同一流形上的数据点具有相同标签。

2. Consistency Regularization 半监督学习的一致性约束

深度半监督学习的一个新的研究方向是利用未标记的数据来强化训练模型，使其符合聚类假设，即学习的决策边界必须位于低密度区域。这些方法基于一个简单的概念，即如果对一个未标记的数据应用实际的扰动，则预测不应发生显著变化，因为在聚类假设下，具有不同标签的数据点在低密度区域分离。

具体来说，给定一个未标记的数据点及其扰动的形式，目标是最小化两个输出之间的距离。流形的距离测量 d 通常是均方误差（MSE），Kullback-Leiber 散度（KL）和 Jensen-Shannon 散度（JS），我们可以按以下方式计算这些度量，其中。

核心思想，对于有标签的数据，采用有监督的交叉熵损失；对于无标签数据，采用无监督的一致性正则损失。

Consistency Regularization for Semi-Supervised Learning

2.1 Pi-Model

$L=w\frac{1}{D_u}\sum_{x\in {D_u}}{d_{MSE}(\tilde{y_1},\tilde{y_2})}+\frac{1}{D_l}\sum_{x,y\in{D_L}}H(y,f(x))$

这是Pi-Model，其损失函数：由两部分构成，如下所示，其中第一项含有一个时变系数 w，用来逐步释放此项的权重，x 是未标记数据，由两次前向运算结果的均方误差（MSE）构成。第二项由交叉熵构成，x 是标记数据，y 是对应标签，仅用来评估有标签数据的误差。可见，第一项即是用来实现一致性正则。

第一项对应的无标签数据的一致性约束，分别是两个扰动项，也可以一个是原始的无标签数据 $x$ 加上对该数据的扰动 $\tilde{x}$ 。可以采用MSE、KL散度、JS散度来衡量。

2.2 Temporal Ensembling

也可以对扰动后的数据做EMA指数加权平均，来保持扰动之后历史数据的一致性。然后与当前的数据做对比。
$L=w\frac{1}{D_u}\sum_{x\in {D_u}}{d_{MSE}(\tilde{y},\hat y)}+\frac{1}{D_l}\sum_{x,y\in{D_L}}H(y,f(x))$
其中， $\tilde y$ 是无标签数据扰动项的输出， $\hat y$ 是历史预测的均值。

在 Temporal Ensembling 模型中，使用时序组合模型，采用的是当前模型预测结果与历史预测结果的平均值做均方差计算。有效地保留历史了信息，消除了扰动并稳定了当前值。

2.3 Mean Teachers

当然，也可以对模型进行扰动，保持相同的无标签样本的输入具有一致的输出。

Mean Teachers 则是 Temporal Ensembling 的改进版，Temporal Ensembling 对模型的预测值进行 EMA，而 Mean Teachers 采用了对 Student 模型权重进行 EMA，作为 teacher model 如下：

这种情况下，损失的计算是有监督和无监督损失的总和：
$L=w\frac{1}{D_u}\sum_{x\in {D_u}}{d_{MSE}(f_{\theta}(x),f_{\theta '}(x))}+\frac{1}{D_l}\sum_{x,y\in{D_L}}H(y,f(x))$
$f_{\theta '}(x)$ 为EMA后的添加扰动的Teacher模型， $f_{\theta}(x)$ 为添加噪声的Student模型。他们对相同的无标签输入应该有相似的输出。

2.4 Unsupervised Data Augmentation

之前的工作中对未标记的数据加入噪声增强的方式主要是采用简单的随机噪声，但是这篇文章发现对输入 x 增加的噪声 α 对模型的性能提升有着重要的影响，因此 UDA 提出对未标记的数据采取更多样化更真实的数据增强方式，并且对未标记的数据上优化相同的平滑度或一致性增强目标。

（1）最小化未标记数据和增强未标记数据上预测分布之间的 KL 差异。

（2）为了同时使用有标记的数据和未标记的数据，添加了标记数据的 Supervised Cross-entropy Loss 和上式中定义的一致性/平滑性目标 Unsupervised Consistency Loss，权重因子 λ 为我们的训练目标。

UDA 证明了针对性的数据增强效果明显优于无针对性的数据增强，这一点和监督学习的 AutoAugment、RandAugment 的结论是一致的。

2.5 小节

一致性正则化这类方法的主要思想是：对于无标签图像，添加噪声之后模型预测也应该保持不变。除了以上的方法外，还有 VAT [1]、ICT [2] 等等方法，这些方法也都是找到一种更适合的数据增强，因为数据增强不应该是一成不变的，而是如 UDA 所述不同的任务其数据扩增应该要不一样。

3. Proxy-label Methods 代理标签/伪标签方法

代理标签方法是使用预测模型或它的某些变体生成一些代理标签，这些代理标签和有标记的数据混合一起，提供一些额外的训练信息，即使生成标签通常包含嘈杂，不能反映实际情况。

这类方法主要可分为分为两类：self-training（模型本身生成代理标签）和 multi-view learning（代理标签是由根据不同数据视图训练的模型生成的）。包括Co-Training和Tri-Training方法。

当标注的数据较少时模型训练容易出现过拟合，一致性正则化方法通过鼓励无标签数据扰动前后的预测相同使学习的决策边界位于低密度区域，很好缓解了过拟合这一现象，代理标签法通过对未标记数据制作伪标签然后加入训练，以得到更好的决策边界，而众多方法中，混合方法表现出了良好的性能，是近来的研究热点。

是否龙磊磊真的一无所有

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
半监督学习Semi- Supervised Learning的一致性约束，一致正则损失

半监督学习Semi-Supervised Learning核心思想，对于有标签的数据，采用有监督的交叉熵损失；对于无标签数据，采用无监督的一致性正则损失。分析了半监督学习的主流方法，以及一致性约束的作用条件和对分类损失的不同部分的作用。
复制链接

扫一扫