半监督学习之self-training

本文介绍了半监督学习的概念及应用场景,并详细解析了self-training这一经典半监督学习方法的算法流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一,半监督学习

  半监督学习是一种介于监督式学习和无监督学习之间的学习范式,我们都知道,在监督式学习中,样本的类别标签都是已知的,学习的目的找到样本的特征与类别标签之间的联系。一般来讲训练样本的数量越多,训练得到的分类器的分类精度也会越高。但是在很多现实问题当中,一方面由于人工标记样本的成本十分高昂,导致了有标签的样本十分稀少。而另一方面,无标签的样本很容易被收集到,其数量往往是有标签样本的上百倍。半监督学习(这里仅针对半监督分类)就是要利用大量的无标签样本和少量的有标签样本来训练分类器,解决有标签样本不足这个难题。

二,self-training

self-training可能是最早被提出来的半监督学习方法,最早可以追溯到Scudder(1965)。self-training相比其它的半监督学习方法的优势在于简单以及不需要任何假设。这里写图片描述
上面是self-training的算法流程图,简单解释一下:
1,将初始的有标签数据集作为初始的训练集 (Xtrain,ytrain)=(Xl,yl) ( X t r a i n , y t r a i n ) = ( X l , y l ) ,根据训练集训练得到一个初始分类器 Cint C i n t
2,利用 Cint C i n t 对无标签数据集 Xu X u 中的样本进行分类,选出最有把握的样本 (Xconf,yconf) ( X c o n f , y c o n f )
3,从 Xu X u 中去掉 (Xconf,yconf) ( X c o n f , y c o n f )
4,将 (Xconf,yconf) ( X c o n f , y c o n f ) 加入到有标签数据集中, (Xtrain,ytrain)(Xl,yl)(Xconf,yconf) ( X t r a i n , y t r a i n ) ← ( X l , y l ) ∪ ( X c o n f , y c o n f )
5,根据新的训练集训练新的分类器,重复步骤2到5直到满足停止条件(例如所有无标签样本都被标记完了)
最后得到的分类器就是最终的分类器。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值