What is self-training?
- 在监督学习中,模型都是需要有一个大量的有标签的数据集进行拟合,通常数据成本、人力成本都很高。而现实生活中,无标签的样本的收集相对就很容易很多。因此,近年来,利用大量的无标签样本和少量的有标签样本的半监督学习备受关注。
- Self-training 是最简单的半监督方法之一,其主要思想是找到一种方法,用未标记的数据集来扩充已标记的数据集。
ICML 2013:The Simple and EfficientSemi-Supervised Learning Method for Deep Neural Networks[3]
在样本及其珍贵的金融、医疗图像、安全等领域,伪标签学习是一把锋利的匕首,简单而有效。算法流程如下:
-
首先,利用已标记的数据来训练一个好的模型,然后使用这个模型对未标记的数据进行标记。
-
然后,进行伪标签的生成,因为我们知道,已训练好的模型对未标记数据的所有预测都不可能都是好的,因此对于经典的 Self-training,通常是使用分数阈值(confidence score)过滤部分预测,以选择出未标记数据的预测标签的一个子集。
-
其次,将生成的伪标签与原始的标记数据相结合,并在合并后数据上进行联合训练。
-
整个过程可以重复 n 次,直到达到收敛。
Self-training 最