self training

最新推荐文章于 2024-01-12 11:03:34 发布

Stdleohao

最新推荐文章于 2024-01-12 11:03:34 发布

阅读量894

点赞数

分类专栏：机器深度学习文章标签：深度学习机器学习 pytorch

本文链接：https://blog.csdn.net/stdleohao/article/details/120588032

版权

自我训练是一种半监督学习方法，通过利用少量有标签数据和大量无标签数据来训练模型。Noisy Student 方法引入了知识蒸馏，通过不断迭代提高模型性能，而CReST框架则针对类别不平衡问题进行了改进。在实际应用如Kaggle比赛中，自我训练也能有效提升模型的性能。

摘要由CSDN通过智能技术生成

What is self-training?

在监督学习中，模型都是需要有一个大量的有标签的数据集进行拟合，通常数据成本、人力成本都很高。而现实生活中，无标签的样本的收集相对就很容易很多。因此，近年来，利用大量的无标签样本和少量的有标签样本的半监督学习备受关注。
Self-training 是最简单的半监督方法之一，其主要思想是找到一种方法，用未标记的数据集来扩充已标记的数据集。

在样本及其珍贵的金融、医疗图像、安全等领域，伪标签学习是一把锋利的匕首，简单而有效。算法流程如下：

首先，利用已标记的数据来训练一个好的模型，然后使用这个模型对未标记的数据进行标记。
然后，进行伪标签的生成，因为我们知道，已训练好的模型对未标记数据的所有预测都不可能都是好的，因此对于经典的 Self-training，通常是使用分数阈值（confidence score）过滤部分预测，以选择出未标记数据的预测标签的一个子集。
其次，将生成的伪标签与原始的标记数据相结合，并在合并后数据上进行联合训练。
整个过程可以重复 n 次，直到达到收敛。

Self-training 最

关注

专栏目录