self training

自我训练是一种半监督学习方法,通过利用少量有标签数据和大量无标签数据来训练模型。Noisy Student 方法引入了知识蒸馏,通过不断迭代提高模型性能,而CReST框架则针对类别不平衡问题进行了改进。在实际应用如Kaggle比赛中,自我训练也能有效提升模型的性能。
摘要由CSDN通过智能技术生成

What is self-training?

  • 在监督学习中,模型都是需要有一个大量的有标签的数据集进行拟合,通常数据成本、人力成本都很高。而现实生活中,无标签的样本的收集相对就很容易很多。因此,近年来,利用大量的无标签样本和少量的有标签样本的半监督学习备受关注。
  • Self-training 是最简单的半监督方法之一,其主要思想是找到一种方法,用未标记的数据集来扩充已标记的数据集。

ICML 2013:The Simple and EfficientSemi-Supervised Learning Method for Deep Neural Networks[3]

在样本及其珍贵的金融、医疗图像、安全等领域,伪标签学习是一把锋利的匕首,简单而有效。算法流程如下:

  1. 首先,利用已标记的数据来训练一个好的模型,然后使用这个模型对未标记的数据进行标记。

  2. 然后,进行伪标签的生成,因为我们知道,已训练好的模型对未标记数据的所有预测都不可能都是好的,因此对于经典的 Self-training,通常是使用分数阈值(confidence score)过滤部分预测,以选择出未标记数据的预测标签的一个子集。

  3. 其次,将生成的伪标签与原始的标记数据相结合,并在合并后数据上进行联合训练。

  4. 整个过程可以重复 n 次,直到达到收敛。

    Self-training 最

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值