浅析 Semi-Supervised Learning 中的 consistency 问题

传统半监督学习简述:

区别于全监督学习,半监督学习针对训练集标记不完整的情况:仅仅部分数据具有标签,然而大量数据是没有标签的。因此,目前半监督学习的关键问题在于如何充分地挖掘没有标签数据的价值。主流的半监督学习方法有下面几种:

  1. Self-Training 方法。这是一种很直观的思路:既然大量数据是没有标签的,那么能否对这些数据生成一些伪标签 Pseuo Labels,对这些伪标签数据的训练从而利用原始的无标签数据。
  2. Adversarial-Learning-based 方法。这类方法基于一种假设,无标签数据通常具有和有标签数据在某种程度上类似的潜在标签。所以很自然地,可以采用 GAN 的图像模拟思路来进行对 Labeled Data 进行类似于 Unlabeled Data 的数据增强,进而利用 Unlabeled Data 的潜在知识。
  3. Consistency-based 方法。 这类方法的核心思路在于 consistency loss,对于进过扰动的 unlabeled data,模型应该对其做出一致性的预测 —— 可以理解成一种利用 unlabeled data 进行网络正则化的方法。 其中经典的算法有 Π-model,Temporal Ensembling 和 Mean Teacher。这些内容具体可以参见 飘入东湖的鱼的知乎专栏。本篇博客的后续讨论都是基于 Mean Teacher 模型上的。

现有半监督学习的问题 —— Individual Consistency

目前大多数半监督学习方法都是基于 consistency-enforcing strategy,利用无标签数据对网络进行正则化,要求预测结果对于输入扰动和网络参数扰动具有一致性。具体来说,给定一个输入样本,对其进行一定程度的扰动 (如添加 Gaussian noise),使得网络对于这些样本具有相似的预测结果。
  这类方法的局限性在于 没有考虑样本和样本之间的关系 —— 这些关系能够有助于从无标签的样本中提取语义信息。如下图所示, 传统半监督学习考虑 individual consistency,将每个样本当成独立的个体考虑,仅仅考虑它和对应扰动之后的样本之间的对应关系。除此之外,我们能否进一步考虑样本之间的关系一致性 (Relation Consistency)在添加扰动之后其 relation consistency 也应该保持 —— 最小化,从而确保 high-level semantic information 也能够被学习到,进而确保学习的鲁棒性和高判别性。
在这里插入图片描述

实现方法

在这里插入图片描述

  • 上图的骨架结构是传统的 mean-teacher 框架,其中包括对于 student model 的有监督损失函数 L s L_s Ls (cross entropy loss),和上述提到的 individual consistency loss L c L_c Lc (这里采用的是 mse loss)
  • L s r c L_{src} Lsrc (Sample Relation Consistency)。这里考虑一个 mini-batch 内样本的关系一致性,简单来说就是计算在全连接层之前的 feature map 之间的 similarity。给定 batch size = B B B,即可得到尺寸为 B × B B \times B B×B 的 similarity matrix。对于 student model 和 teacher model 得到的 similarity matrix 计算其之间的差异,作为 L s r c L_{src} Lsrc。进而优化 L s r c L_{src} Lsrc 即可达到对于样本关系一致性的约束。

总结

  • 从方法核心的角度来看,这个方法很类似于对于 feature map 的一致性约束,只不过这里是先对 feature map 计算相似性,然后再对相似性做了一致性的约束。所以文章后续也有讨论,这样通过约束相似性的方式是优于直接约束 feature map。
  • 0
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
### 回答1: Temporal Ensembling是一种半监督学习方法,它使用了时间上的一致性来提高模型的性能。该方法通过对未标记数据进行预测,并将预测结果与之前的预测结果进行平均,从而获得更加稳定和准确的预测结果。同时,该方法还使用了一个噪声注入技术来增加模型的鲁棒性。该方法已经在图像分类、语音识别等领域取得了很好的效果。 ### 回答2: Temporal Ensembling是一种半监督学习方法。它主要通过使用同一批数据的多个副本,在单批数据上进行迭代学习来提高预测模型的准确性。这种方法能够很好地利用已有数据的潜在信息,同时也能避免因缺乏大量标注数据而损失准确性的问题。 Temporal Ensembling的核心思想是使用模型的历史预测结果来生成新的虚拟标签。在训练期间,模型不断地更新,同时不断生成新的“标注”,并将这些新的“标注”与原始标注数据一起训练。这样,模型可以从大量带有“标注”的数据学习并逐渐提高其准确性。 Temporal Ensembling方法在许多学习任务都展现出优良的性能,比如图像分类、物体识别、图像分割、语音识别等。其,与其他半监督学习方法相比,Temporal Ensembling在半监督图像分类的性能最为出色。 尽管Temporal Ensembling的性能非常出色,但是其的一些问题仍需要解决。 首先,这种方法需要大量的GPU计算力和存储空间,并且需要复杂的算法设计。其次,由于该方法是基于生成虚拟标签的,因此,如果模型在未来预测错误而不正确地生成了虚拟标签,那么可能会产生负面影响。 总之,Temporal Ensembling是一种有效的半监督学习方法,其取得的结果显示出高水平的准确性。与其他方法相比,Temporal Ensembling具有更好的稳健性及效能。也因此,它在深度学习领域被广泛应用。 ### 回答3: Temporal Ensembling是一种半监督学习技术,可以用于训练深度神经网络。该技术旨在利用未标记的数据来改善模型的泛化能力。在传统的监督学习,我们需要分类器预测每个样本的标签,并将其与真实标签进行比较以计算损失函数。然而,在许多现实世界的场景,标记数据的数量通常是有限的,这使得监督学习变得更加困难和昂贵。相反,在半监督学习,我们将未标记的数据与标记数据结合在一起进行训练。 Temporal Ensembling的实现是基于一个假设,即相似的输入应该具有相似的潜在表示形式。具体来说,该技术通过在连续训练周期收集了单次训练的模型预测,通过将这些预测结果整合成一个移动平均版本来构建模型共识。这可以看作是把模型的预测提供给下一个周期的训练,让模型逐渐整合起来,在连续的训练周期收集了对训练数据更准确的表示。在训练过程,我们不仅使用真实标签来计算损失函数,还将平均预测意味着的交叉熵添加到损失函数。这使得模型学习时能够尽可能地匹配模型共识的数据。 虽然在许多情况下,半监督学习可以增加模型学习任务的效果,但它依赖于许多因素,包括未标记样本的数量、分布和标记样本之间的相似性。使用Temporal Ensembling时,需要做好降噪处理,适当选择数据能够真正提高该技术效果。此外,需要注意的是,Temporal Ensembling只能在没有过度拟合数据集时才能有效,因为此技术基于模型共识构建。在实际应用,可以将Temporal Ensembling与其他半监督学习技术结合使用,以提高模型性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值