paper总结(5)FixMatch: Simplifying Semi-Supervised Learningwith Consistency and Confidence

        半监督学习(Semi-supervised learning)是一种学习方法,其使用少量标记的数据和大量未标记的数据进行学习。

        半监督学习的关键是如何从未标记的数据中获取teacher signal。 使用模型将预测值作为临时标签似乎很常见。 最受欢迎的伪标签方法,仅使用对预测具有最高置信度的预测标签进行标记 。             但是,最初没有标签,因此不知道是否可以相信这些label。 因此,存在一种称为一致性正则化的方法,该方法通过限制预测值来提高临时标签的准确性,以便即使转换数据也不会改变预测值。  通过将源自同一图像的两种类型增强的图像的预测值之间的差异纳入目标函数,可以确保未标记数据的临时标签的预测值的可靠性。

3.1 增强

(1)弱增强:用标准的翻转和平移策略。

(2)强增强:输出严重失真的输入图像,先使用RandAugment 或 CTAugment,再使用 CutOut 增强。

训练过程如下:

(1)Input:准备了batch=B的有标签数据和batch=μB 的无标签数据,其中μ是无标签数据的比例;

(2)监督训练:对于在标注数据的监督训练,将常规的交叉熵损失 H()用于分类任务。有标签数据的损失记为ls,如伪代码中第2行所示;

(3)生成伪标签:对无标签数据分别应用弱增强和强增强得到增强后的图形,再送给模型得到预测值,并将弱增强对应的预测值通过 argmax 获得伪标签;

(4)一致性正则化:将强增强对应的预测值与弱增强对应的伪标签进行交叉熵损失 H()计算,未标注数据的损失由 lu 表示,如伪代码中的第7行所示;式τ表示伪标签的阈值;

(5)完整损失函数:最后,我们将ls和lu损失相结合,如伪代码第8行所示,对其进行优化以改进模型,其中,λu 是未标记数据对应损失的权重。

        首先,如上所述,我们发现正规化特别重要。在我们所有的模型和实验中,我们使用简单的权重衰减正则化。我们还发现,使用Adam优化器会导致性能下降,而使用具有动量的标准SGD。我们没有发现标准动量和内斯特罗夫动量之间存在实质性差异。对于学习速率计划,我们使用余弦学习速率衰减,将学习速率设置为 其中η是初始学习率,k是当前训练步骤,k是训练步骤总数。最后,我们使用模型参数的指数移动平均值报告最终性能。

Conclusion

通过FixMatch,可以总结出以下结论:

(1)使用具有高置信度的未标记数据参与训练效果比较好;

(2)适当增加batch中未标记数据的比例;

(3)T越小(即分布越尖锐),则精度会越高。

总的来说,半监督学习是一种好方法,因为其是一种可以在开始高成本之前使用的方法。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值