self training

最新推荐文章于 2024-01-22 15:12:15 发布

Stdleohao

最新推荐文章于 2024-01-22 15:12:15 发布

阅读量910

点赞数

分类专栏：机器深度学习文章标签：深度学习机器学习 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Stdleohao/article/details/120588032

版权

自我训练是一种半监督学习方法，通过利用少量有标签数据和大量无标签数据来训练模型。Noisy Student 方法引入了知识蒸馏，通过不断迭代提高模型性能，而CReST框架则针对类别不平衡问题进行了改进。在实际应用如Kaggle比赛中，自我训练也能有效提升模型的性能。

摘要由CSDN通过智能技术生成

What is self-training?

在监督学习中，模型都是需要有一个大量的有标签的数据集进行拟合，通常数据成本、人力成本都很高。而现实生活中，无标签的样本的收集相对就很容易很多。因此，近年来，利用大量的无标签样本和少量的有标签样本的半监督学习备受关注。
Self-training 是最简单的半监督方法之一，其主要思想是找到一种方法，用未标记的数据集来扩充已标记的数据集。

ICML 2013:The Simple and EfficientSemi-Supervised Learning Method for Deep Neural Networks[3]

在样本及其珍贵的金融、医疗图像、安全等领域，伪标签学习是一把锋利的匕首，简单而有效。算法流程如下：

首先，利用已标记的数据来训练一个好的模型，然后使用这个模型对未标记的数据进行标记。
然后，进行伪标签的生成，因为我们知道，已训练好的模型对未标记数据的所有预测都不可能都是好的，因此对于经典的 Self-training，通常是使用分数阈值（confidence score）过滤部分预测，以选择出未标记数据的预测标签的一个子集。
其次，将生成的伪标签与原始的标记数据相结合，并在合并后数据上进行联合训练。
整个过程可以重复 n 次，直到达到收敛。

Self-training 最

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。