Semi-supervised Vision Transformers at Scale【论文速读】

https://arxiv.org/pdf/2208.05688.pdf

FitMatch稳定版

引言:

一、文章内容总结输出:文章首先介绍了半监督学习在计算机视觉任务中的应用,然后提出了Semi-ViT方法。Semi-ViT方法包括预训练、微调和半监督微调三个步骤,可以有效地利用未标记的数据来提高模型性能。此外,文章还详细说明了Semi-ViT架构、数据增强技术和超参数选择等方面。最后,通过实验结果展示了Semi-ViT在ImageNet数据集上取得的优异性能,并与其他半监督学习算法进行比较。

二、重要名词解释:本文涉及到一些重要概念和术语的解释,如半监督学习、视觉转换器(Transformer)等。这些术语对于理解本文内容非常关键。

  1. 半监督学习(Semi-Supervised Learning):指在机器学习任务中,利用未标记的数据和少量标记数据共同训练模型,以提高模型性能。

  2. 视觉转换器(Visual Transformer):一种基于Transformer架构的深度学习模型,用于处理图像、视频等视觉数据。

  3. 预训练(Pre-Training):在无监督任务上预先训练模型,使其具备良好的特征表示能力。

  4. 微调(Fine-Tuning):在有标记数据情况下进一步调整模型参数,以适应特定任务。

  5. 半监督微调(Semi-Supervised Fine-Tuning):同时利用有标记数据和未标记数据进行微调。

  6. EMA-Teacher框架:指数值平均法教师框架,通过对当前学生网络参数进行平均来更新教师网络参数。

  7. Mixup机制:一种将两张图片进行线性组合的技术,用于增加图片多样性和减少噪声。

  8. Semi-ViT方法:结合预训练、微调和半监督微调三个步骤的半监督学习方法,用于提高视觉转换器在计算机视觉任务中的性能。

  9. ImageNet、Food101、iNaturalist等计算机视觉基准测试集。

  10. MAE预训方法、DINO预训方法等常用于自我/无监督预训的方法。

一、介绍

在这篇文章中,我们介绍了一种名为Semi-ViT的半监督学习方法,用于提高视觉转换器在计算机视觉任务中的性能。

首先,我们简要介绍了视觉转换器(Visual Transformer)这种基于Transformer架构的深度学习模型。它已经在很多计算机视觉任务中取得了显著的效果,比如图像分类、目标检测和语义分割等。

然后,我们提出了Semi-ViT这个方法。相比传统的半监督学习方法和一些针对CNN的半监督学习方法,Semi-ViT是第一个将半监督学习应用于Visual Transformer上并取得成功的尝试。这表明Visual Transformer可以利用其强大的表征能力和良好的泛化性能来应对半监督环境下训练时面临的挑战。

最后,文章概括了Semi-ViT方法及其优势所在:通过预训练、微调和半监督微调三个步骤来充分发挥模型潜力;同时也可以很好地继承视觉转换器本身就具备的可扩展性和好处。这为未来进一步提升Visual Transformers在计算机视觉任务中表现提供了新思路和可能性。

二、半监督视觉变压器

半监督学习中的一些常见方法和流程。例如,一种方法是直接使用无标签数据训练模型,另一种是先使用自监督任务预训练模型,然后再在标记数据上进行微调。还有一种方法是先进行自我监督训练,再进行半监督微调。

在本文中,作者提出了一种新的半监督学习流程:首先进行预训练(optional self-supervised pre-training),然后只使用标记数据进行微调(standard supervised fine-tuning),最后进行半监督微调(semi-supervised fine-tuning)以利用标记和未标记数据共同提高性能。与之前的文献不同之处在于他们没有采用知识蒸馏(knowledge distillation)作为最后一个步骤。通过这种方式训练出的模型可以获得较好效果且需要较少的超参数调节。

针对FitMatch的不稳定问题进行相对的改进、并将其融入Semi-ViT

三、Probabilistic Pseudo Mixup

3.1 Mixup:Mixup是一种半监督学习技术,它可以通过将两张不同的图片进行线性组合得到新的图片来增加数据多样性。例如,如果我们有一张猫和一张狗,然后把它们混合在一起就得到了一幅新画。这种方法可以帮助训练模型更好地学习到各种不同类型的图像信息。

但是直接使用mixup会引入噪声并导致性能下降。因为未标记数据本身就存在噪声,直接使用mixup会引入更多噪声并影响模型训练效果。

3.2 Pseudo Mixup:Pseudo Mixup是另一种半监督学习技术,它可以通过生成一些伪标签来增强未标记数据。例如,给定一个未标记样本和其对应的预测标签,我们可以将预测标签和真实标签进行混合来得到新的伪标签。这样就相当于给未标记数据添加了一些额外信息来帮助模型更好地学习到相关特征信息。这种方法既能保留原始数据信息,又避免了过度依赖单个样例带来噪音干扰问题, 进一步提升了模型泛化能力.

3.3 Probabilistic Pseudo Mixup:这是另一种基于概率混合操作生成伪标签的方式, 它考虑到每个样本点可能被选入或排除在混合操作之外, 因此需要对每个样本点进行加权计算才能得到最终结果. 例如, 如果我们有10个未标记样本和5个已知真实标注, 那么只有5个样本会被选中作为“虚拟”标注;而其他5个不会被选中但仍然会参与计算加权平均值.这样既保留了原始数据信息又避免过度依赖单个样例带来噪音干扰问题, 进一步提升了模型泛化能力. 这种方法比前面两种更灵活也更全面地利用了不同类型数据资源, 能够带来更显著效果提升.

四、实验

我们研究了两种情况:有和没有自我监督的预训练。如果没有自我预训练,我们只对 10% 的标签进行评估,因为从头开始学习 1% 的标签是非常困难的。在自预训练时,主要使用 MAE。所有学习都使用AdamW进行优化,使用余弦学习速率计划,权重衰减为 0.05。

4.1 Semi-ViT results:

  1. 首先评估了MAE在标记数据上的微调效果,以确定该方法是否适合用于半监督学习场景。结果显示MAE可以提供强大的自监督学习效果。然而,Semi-ViT进一步提高了性能,尤其是对于较小的标签数量(1%)和较大的模型规模(Large/Huge)来说更为明显。此外,作者们观察到更大尺寸的模型对于少量标签也更有效果, 而对于大量标签则不太有效果, 这一结果与之前文献中的发现一致.

  2. 给出了Semivit在ImageNet、Food101等计算机视觉任务上的实验结果。Semivit在这些任务上均取得了优于其他方法的性能表现。例如, Semivit-Huge模型使用1%的标记数据可以达到80.0%的top1准确率, 而使用5%标记数据可以达到93.1%, 这表明Semivit可以利用少量标记数据实现很好效果提升。

4.2Ablation studies:

  1. 对比了使用EMA-Teacher框架和直接使用FitMatch框架训练Semivit的效果, 证明EMA-Teacher可以带来更稳定和更高精度的训练效果。(没有自预训练时,FitMatch极不稳定)同时也对比了使用不同数据增强方式(各种伪混淆)和超参数设置对模型性能影响,找到最优配置.

  2. MAE的效果很好,MAE的自我预训练对性能有显著提升,对于 ViT-Base、不管有没有混淆,都提升了EMA-Teacher6%以上的精确度;此外,它还有助于在更具挑战性的场景中训练模型。

  3. DINO是在较小规模ViT模型上的自我预训练技术的更好选择。

  4. 概率伪混淆对于其他框架也使用、例如在CNN的架构上可以改进3-4个点

4.3Comparison with state of the art methods:

SemiViT与之前一些最佳半监督学习算法如PAWS、Simclrv2等方法进行比较, Semivit取得了更好或同等水平的性能表现. 比如Semivit能够在ImageNet任务中取得80.0%top1准确率,远超过之前最好水平(67%)。这再次验证SemiViT方法在半监督学习中具有很大潜力及优势。以上各项内容综合评估显示出SemiViTVisionTransformer具有很强泛化能力及可扩展性,是一项有前景且值得深入探索研究之工作成果!

  1. 相较于复杂的唯一基于 transformer 的 SSL 方法:SemiFormer,SemiVit基于纯的Vit,没有任何额外的参数和架构变化。

  2. 可扩展性是ViT的很大的一个优势,Semi-ViT可以在模型容量和精度之间实现更好的权衡,并且可以比现有技术SimCLRv2更有效地扩大规模。

  3. 在注释成本上也有很大的改进、Semi-ViT-Huge 可与 Inception-v4 [ 55 ] 相媲美,但注释成本降低了 100×;与ConvNeXt-L相当(优于Swin-B [41]),但注释成本降低了10×。

4.4 其他数据集

在其他数据集上、如Food-101, iNaturalist和GoogleLandmark 也有相同的表现,可以减少10倍的数据注释成本。

五、相关工作

  1. 半监督学习有悠久的研究历史、大致可以分为两类:(1)基于一致性的(2)基于伪标记

伪标签里还有个在线伪标签,教师模型会随着学生一起不断更新,Semi-Vit就属于这个范畴

  1. Mixup同样发展迅速,但与我们的概率伪混淆差别 :

    1. 是基于一致性的SSL框架,而是我们的是伪标注的;

    2. 它们的混合比率是随机抽样的,但我们的混合比率取决于伪标签置信度;

    3. 他们只在小型CNN架构和小型数据集上取得了成功,例如CIFAR[36]和SVHN[47],但我们的成功是建立在各种规模的Transformer架构和大型数据集上,例如ImageNet[50],INaturalist[28],GoogleLandmark[48]等。

六、结论

  1. 这篇论文提出并验证了一种基于Transformer架构设计的新型半监督学习方法Semi-ViT, 充分利用Visual Transformer强大表征能力与泛化性能来提高模型性能, 同时也具有很强可扩展性与泛化能力。这为进一步提升计算机视觉领域半监督算法提供了新思路与可能性

  • 32
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值