Semi-supervised:Noisy Student

Semi-supervised:Noisy Student

Abstract(摘要)

1. 想解决什么问题?question

在标记数据丰富的情况下也能很好地工作,利用未标签数据,提高训练精度

2. 通过什么理论/模型来解决这个问题?method

nosiy student

3. 作者给出的答案是什么?answer

1、首先对带标记的图像训练一个有效网络模型,并使用它作为教师,为300M未标记的图像生成伪标记。

2、然后,我们训练一个更大的效率网作为一个学生模型的组合标记和伪标记图像。

3、重复这个过程,把学生放回老师的位置。

在学生的学习过程中,我们通过随机增广的方式向学生注入诸如dropout、随机深度、数据扩充等噪声,使学生的泛化能力优于教师

Introduction(研究背景/意义)

1. 为什么研究这个课题?

最先进的(SOTA)视觉模型仍然使用监督学习训练,需要大量的标记图像的语料库。通过只显示模型标记的图像,限制了自己利用大量可用的未标记图像来提高SOTA模型的准确性和鲁棒性

2. 目前这个课题的研究进行到了哪一阶段?(存在问题、待解决问题)

嘈杂的学生训练从两个方面提高了self-training和distillation(知识蒸馏)

1、它使学生比老师大,或者至少等于老师,这样学生可以更好地从更大的数据集中学习。

2、它会给学生增加噪音,这样噪音的学生就会被迫从伪标签中学习更多。

Method(研究思路)

1、数据来源

有标签数据集:ImageNet 2012ILSVRC。

无标签数据集:JFT dataset。虽然这个数据集实际上是有标签的,但是无视标签。

数据清洗:先跑EfficiNet-B0,对JFT数据集的每个数据预测一个标签,然后挑选置信度高于0.3的图片。对每类的图片,得到了置信度最高的130k的图片。对于不到130k的类,随机复制。

模型:EfficientNets

2、研究方法与原理

在这里插入图片描述

(1)原理

文中Noisy Student模型的训练过程如下述算法所示:

①首先使用部分标签样本训练一个教师网络,使用标准交叉熵损失;

②使用教师网络生成无标签样本的伪标签;

③使用上述标签样本和伪标签样本分别训练学生网络(过程中会加入“噪声”),混合交叉熵损失;

④将学生网络作为新的教师网络,重复步骤②

(2)改进

1、使学生模型大于或至少等于教师模型,这样学生模型可以从更大的数据集中进行学习

2、给学生模型增加了噪音,在教师网络生成标签时把这些噪声移除。

噪声类型

1、输入噪声:

Data Augmentation(数据增强):提高泛化能力,为了保证变换后的图像仍然具有正确的分类标签

2、模型噪声:

Stochastic depth(随机深度):训练过程中任意地丢弃一些层,并在测试过程中使用完整的网络。

dropout:向前传播时,让某个神经元的激活值以一定的概率p停止工作

解决:过拟合、费事问题

两个小tricks:数据过滤和数据平衡

数据过滤:过滤教师模型中置信度不高的图像,这些图像被叫作域外图像。

数据平衡:由于ImageNet中的所有类都有相似数量的标记图像,需要平衡每个类的未标记图像的数量。

Experiments and Results(实验结果)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusion(结论)

1、使用未标记图像可以显著提高ImageNet模型的准确性和鲁棒性。

2、self-training是一种简单而有效的算法来利用未标记的数据。我们通过给student增加噪音来改进它,因此有了“noisy student”的名称,以学习超出teacher所知的范围。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值