半监督学习Semi- Supervised Learning的一致性约束,一致正则损失


在现实生活中,无标签的数据易于获取,而有标签的数据收集起来通常很困难,标注也耗时和耗力。在这种情况下,半监督学习(Semi-Supervised Learning)更适用于现实世界中的应用,近来也已成为深度学习领域热门的新方向,该方法只需要少量有带标签的样本和大量无标签的样本,而本文主要介绍半监督学习的三个基本假设和三类方法。

1. Base Assumptions

在什么假设下可以应用半监督算法呢?半监督算法仅在数据的结构保持不变的假设下起作用,没有这样的假设,不可能从有限的训练集推广到无限的不可见的集合。具体地假设有:

1.1 The Smoothness Assumption

如果两个样本 x 1 x_1 x1 x 2 x_2 x2 相似,则它们的相应输出 y 1 y_1 y1 y 2 y_2 y2 也应如此。这意味着如果两个输入相同类,并且属于同一簇,则它们相应的输出需要相近,反之亦成立。

1.2 The Cluster Assumption

假设输入数据点形成簇,每个簇对应于一个输出类,那么如果点在同一个簇中,则它们可以认为属于同一类。聚类假设也可以被视为低密度分离假设,即:给定的决策边界位于低密度地区。两个假设之间的关系很容易看出。

一个高密度区域,可能会将一个簇分为两个不同的类别,从而产生属于同一聚类的不同类,这违反了聚类假设。在这种情况下,我们可以限制我们的模型在一些小扰动的未标记数据上具有一致的预测,以将其判定边界推到低密度区域。

1.3 The Manifold Assumption

(a)输入空间由多个低维流形组成,所有数据点均位于其上;

(b)位于同一流形上的数据点具有相同标签。

2. Consistency Regularization 半监督学习的一致性约束

深度半监督学习的一个新的研究方向是利用未标记的数据来强化训练模型,使其符合聚类假设,即学习的决策边界必须位于低密度区域。这些方法基于一个简单的概念,即如果对一个未标记的数据应用实际的扰动,则预测不应发生显著变化,因为在聚类假设下,具有不同标签的数据点在低密度区域分离。

具体来说,给定一个未标记的数据点及其扰动的形式 ,目标是最小化两个输出之间的距离。流形的距离测量 d 通常是均方误差(MSE),Kullback-Leiber 散度(KL)和 Jensen-Shannon 散度(JS),我们可以按以下方式计算这些度量,其中 。

核心思想,对于有标签的数据,采用有监督的交叉熵损失;对于无标签数据,采用无监督的一致性正则损失。

Consistency Regularization for Semi-Supervised Learning

2.1 Pi-Model

L = w 1 D u ∑ x ∈ D u d M S E ( y 1 ~ , y 2 ~ ) + 1 D l ∑ x , y ∈ D L H ( y , f ( x ) ) L=w\frac{1}{D_u}\sum_{x\in {D_u}}{d_{MSE}(\tilde{y_1},\tilde{y_2})}+\frac{1}{D_l}\sum_{x,y\in{D_L}}H(y,f(x)) L=wDu1xDudMSE(y1~,y2~)+Dl1x,yDLH(y,f(x))

这是Pi-Model,其损失函数:由两部分构成,如下所示,其中第一项含有一个时变系数 w,用来逐步释放此项的权重,x 是未标记数据,由两次前向运算结果的均方误差(MSE)构成。第二项由交叉熵构成,x 是标记数据,y 是对应标签,仅用来评估有标签数据的误差。可见,第一项即是用来实现一致性正则。

第一项对应的无标签数据的一致性约束,分别是两个扰动项,也可以一个是原始的无标签数据 x x x 加上对该数据的扰动 x ~ \tilde{x} x~。可以采用MSE、KL散度、JS散度来衡量。

2.2 Temporal Ensembling

也可以对扰动后的数据做EMA指数加权平均,来保持扰动之后历史数据的一致性。然后与当前的数据做对比。
L = w 1 D u ∑ x ∈ D u d M S E ( y ~ , y ^ ) + 1 D l ∑ x , y ∈ D L H ( y , f ( x ) ) L=w\frac{1}{D_u}\sum_{x\in {D_u}}{d_{MSE}(\tilde{y},\hat y)}+\frac{1}{D_l}\sum_{x,y\in{D_L}}H(y,f(x)) L=wDu1xDudMSE(y~,y^)+Dl1x,yDLH(y,f(x))
其中, y ~ \tilde y y~ 是无标签数据扰动项的输出, y ^ \hat y y^ 是历史预测的均值。

Temporal Ensembling 模型中,使用时序组合模型,采用的是当前模型预测结果与历史预测结果的平均值做均方差计算。有效地保留历史了信息,消除了扰动并稳定了当前值。

2.3 Mean Teachers

当然,也可以对模型进行扰动,保持相同的无标签样本的输入具有一致的输出。

Mean Teachers 则是 Temporal Ensembling 的改进版,Temporal Ensembling 对模型的预测值进行 EMA,而 Mean Teachers 采用了对 Student 模型权重进行 EMA,作为 teacher model 如下:

这种情况下,损失的计算是有监督和无监督损失的总和:
L = w 1 D u ∑ x ∈ D u d M S E ( f θ ( x ) , f θ ′ ( x ) ) + 1 D l ∑ x , y ∈ D L H ( y , f ( x ) ) L=w\frac{1}{D_u}\sum_{x\in {D_u}}{d_{MSE}(f_{\theta}(x),f_{\theta '}(x))}+\frac{1}{D_l}\sum_{x,y\in{D_L}}H(y,f(x)) L=wDu1xDudMSE(fθ(x),fθ(x))+Dl1x,yDLH(y,f(x))
f θ ′ ( x ) f_{\theta '}(x) fθ(x) 为EMA后的添加扰动的Teacher模型, f θ ( x ) f_{\theta}(x) fθ(x) 为添加噪声的Student模型。他们对相同的无标签输入应该有相似的输出。

2.4 Unsupervised Data Augmentation

之前的工作中对未标记的数据加入噪声增强的方式主要是采用简单的随机噪声,但是 这篇文章发现对输入 x 增加的噪声 α 对模型的性能提升有着重要的影响,因此 UDA 提出对未标记的数据采取更多样化更真实的数据增强方式,并且对未标记的数据上优化相同的平滑度或一致性增强目标。

(1)最小化未标记数据和增强未标记数据上预测分布之间的 KL 差异。

(2)为了同时使用有标记的数据和未标记的数据,添加了标记数据的 Supervised Cross-entropy Loss 和上式中定义的一致性/平滑性目标 Unsupervised Consistency Loss,权重因子 λ 为我们的训练目标。

UDA 证明了针对性的数据增强效果明显优于无针对性的数据增强,这一点和监督学习的 AutoAugment、RandAugment 的结论是一致的。

2.5 小节

一致性正则化这类方法的主要思想是:对于无标签图像,添加噪声之后模型预测也应该保持不变。除了以上的方法外,还有 VAT [1]、ICT [2] 等等方法,这些方法也都是找到一种更适合的数据增强,因为数据增强不应该是一成不变的,而是如 UDA 所述不同的任务其数据扩增应该要不一样。

3. Proxy-label Methods 代理标签/伪标签方法

代理标签方法是使用预测模型或它的某些变体生成一些代理标签,这些代理标签和有标记的数据混合一起,提供一些额外的训练信息,即使生成标签通常包含嘈杂,不能反映实际情况。

这类方法主要可分为分为两类:self-training(模型本身生成代理标签)和 multi-view learning(代理标签是由根据不同数据视图训练的模型生成的)。包括Co-Training和Tri-Training方法。

当标注的数据较少时模型训练容易出现过拟合,一致性正则化方法通过鼓励无标签数据扰动前后的预测相同使学习的决策边界位于低密度区域,很好缓解了过拟合这一现象,代理标签法通过对未标记数据制作伪标签然后加入训练,以得到更好的决策边界,而众多方法中,混合方法表现出了良好的性能,是近来的研究热点。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Temporal Ensembling是一种半监督学习方法,它使用了时间上的一致性来提高模型的性能。该方法通过对未标记数据进行测,并将测结果与之前的测结果进行平均,从而获得更加稳定和准确的测结果。同时,该方法还使用了一个噪声注入技术来增加模型的鲁棒性。该方法已经在图像分类、语音识别等领域取得了很好的效果。 ### 回答2: Temporal Ensembling是一种半监督学习方法。它主要通过使用同一批数据的多个副本,在单批数据上进行迭代学习来提高测模型的准确性。这种方法能够很好地利用已有数据的潜在信息,同时也能避免因缺乏大量标注数据而损失准确性的问题。 Temporal Ensembling的核心思想是使用模型的历史测结果来生成新的虚拟标签。在训练期间,模型不断地更新,同时不断生成新的“标注”,并将这些新的“标注”与原始标注数据一起训练。这样,模型可以从大量带有“标注”的数据学习并逐渐提高其准确性。 Temporal Ensembling方法在许多学习任务都展现出优良的性能,比如图像分类、物体识别、图像分割、语音识别等。其,与其他半监督学习方法相比,Temporal Ensembling在半监督图像分类的性能最为出色。 尽管Temporal Ensembling的性能非常出色,但是其的一些问题仍需要解决。 首先,这种方法需要大量的GPU计算力和存储空间,并且需要复杂的算法设计。其次,由于该方法是基于生成虚拟标签的,因此,如果模型在未来测错误而不正确地生成了虚拟标签,那么可能会产生负面影响。 总之,Temporal Ensembling是一种有效的半监督学习方法,其取得的结果显示出高水平的准确性。与其他方法相比,Temporal Ensembling具有更好的稳健性及效能。也因此,它在深度学习领域被广泛应用。 ### 回答3: Temporal Ensembling是一种半监督学习技术,可以用于训练深度神经网络。该技术旨在利用未标记的数据来改善模型的泛化能力。在传统的监督学习,我们需要分类器测每个样本的标签,并将其与真实标签进行比较以计算损失函数。然而,在许多现实世界的场景,标记数据的数量通常是有限的,这使得监督学习变得更加困难和昂贵。相反,在半监督学习,我们将未标记的数据与标记数据结合在一起进行训练。 Temporal Ensembling的实现是基于一个假设,即相似的输入应该具有相似的潜在表示形式。具体来说,该技术通过在连续训练周期收集了单次训练的模型测,通过将这些测结果整合成一个移动平均版本来构建模型共识。这可以看作是把模型的测提供给下一个周期的训练,让模型逐渐整合起来,在连续的训练周期收集了对训练数据更准确的表示。在训练过程,我们不仅使用真实标签来计算损失函数,还将平均测意味着的交叉熵添加到损失函数。这使得模型学习时能够尽可能地匹配模型共识的数据。 虽然在许多情况下,半监督学习可以增加模型学习任务的效果,但它依赖于许多因素,包括未标记样本的数量、分布和标记样本之间的相似性。使用Temporal Ensembling时,需要做好降噪处理,适当选择数据能够真正提高该技术效果。此外,需要注意的是,Temporal Ensembling只能在没有过度拟合数据集时才能有效,因为此技术基于模型共识构建。在实际应用,可以将Temporal Ensembling与其他半监督学习技术结合使用,以提高模型性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值