半监督学习之self-training

最新推荐文章于 2024-08-23 16:53:34 发布

酒浮

最新推荐文章于 2024-08-23 16:53:34 发布

阅读量1.1k

点赞数 1

分类专栏： sklearn 文章标签： python jupyter sklearn 机器学习

原文链接：https://blog.csdn.net/tyh70537/article/details/80244490

版权

sklearn 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

半监督学习结合监督和无监督，解决标签样本稀缺问题。Self-Training是一种简单有效的半监督方法，通过初始有标签数据训练分类器，对无标签数据预测并选择最可信样本加入训练集，迭代优化分类器，直至所有无标签样本被处理。

摘要由CSDN通过智能技术生成

文章目录

半监督学习之self-training

半监督学习之self-training

原文章

一，半监督学习
　　半监督学习是一种介于监督式学习和无监督学习之间的学习范式，我们都知道，在监督式学习中，样本的类别标签都是已知的，学习的目的找到样本的特征与类别标签之间的联系。一般来讲训练样本的数量越多，训练得到的分类器的分类精度也会越高。但是在很多现实问题当中，一方面由于人工标记样本的成本十分高昂，导致了有标签的样本十分稀少。而另一方面，无标签的样本很容易被收集到，其数量往往是有标签样本的上百倍。半监督学习（这里仅针对半监督分类）就是要利用大量的无标签样本和少量的有标签样本来训练分类器，解决有标签样本不足这个难题。
二，self-training
self-training可能是最早被提出来的半监督学习方法，最早可以追溯到Scudder(1965)。self-training相比其它的半监督学习方法的优势在于简单以及不需要任何假设。这里写图片描述
在这里插入图片描述

上面是self-training的算法流程图，简单解释一下：
1，将初始的有标签数据集作为初始的训练集(Xtrain,ytrain)=(Xl,yl)，根据训练集训练得到一个初始分类器Cint。
2，利用Cint对无标签数据集Xu中的样本进行分类，选出最有把握的样本(Xconf,yconf)
3，从Xu中去掉(Xconf,yconf)
4，将(Xconf,yconf)加入到有标签数据集中，(Xtrain,ytrain)←(Xl,yl)∪(Xconf,yconf)
5，根据新的训练集训练新的分类器，重复步骤2到5直到满足停止条件（例如所有无标签样本都被标记完了）
最后得到的分类器就是最终的分类器。

转载于https://blog.csdn.net/tyh70537/article/details/80244490，如需删除请联系

酒浮

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
半监督学习之self-training

文章目录半监督学习之self-training半监督学习之self-training原文章一，半监督学习　　半监督学习是一种介于监督式学习和无监督学习之间的学习范式，我们都知道，在监督式学习中，样本的类别标签都是已知的，学习的目的找到样本的特征与类别标签之间的联系。一般来讲训练样本的数量越多，训练得到的分类器的分类精度也会越高。但是在很多现实问题当中，一方面由于人工标记样本的成本十分高昂，导致了有标签的样本十分稀少。而另一方面，无标签的样本很容易被收集到，其数量往往是有标签样本的上百倍。半监督学习（
复制链接

扫一扫