半监督学习之了解

一、定义

   半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作;

二、self-training,即自我训练,也称之为伪标签技术,初代半监督思想的经典代表

   其基本思路就是,在已标记的数据上训练,然后对未标注数据进行预测,取预测置信度最高的样本直接对其进行标签定义,然后将这类样本纳入当前训练样本中继续训练,直到模型的预测结果不再发生变化;

如果是分类问题:选择预测概率最有把握的样本的标签作为真实的标签(例如概率为0.99或者概率未0.01的预测标签),将预测然后将得到的有标注的数据加入原始数据继续进行训练,再预测,一直到达停止条件(例如大部分甚至全部unlabeled的样本都被打上了标签),此时,我们就把未标注的样本通过这种方式标注出来了;

如果是回归问题,则进行第一轮预测,将预测结果作为新的标签,然后将unlabeled和labeled的数据合并进行训练,再进行第二次预测,计算两次预测的结果中,unlabeled数据的误差情况,取误差最小的部分样本直接进行标签的定义,最后按照上述的思路反复迭代一直到误差收敛为止,此时,我们就把未标注的样本通过这种方式标注出来了;

参考:半监督学习 - 知乎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值