伪标签技术

伪标签技术

由于在2022CCF BDCI中返乡发展人群预测中,主办方提供了一个nolabel的数据集,由于并没有很好的上分思路,所以决定尝试用无监督学习的方式来利用这一部分没有标记的数据。

提到伪标签,首先它肯定是和标签有一定的关系(不然不会这么命名)。但是命名为伪标签技术,说明他不是真正意义上的标签。下面是学习伪标签过程中作的一些记录,部分来源于网络上的其他作者。

什么是伪标签

那么到底什么是伪标签?伪标签的定义来自于半监督学习,半监督学习的核心思想就是通过借助无标签的数据来提升有监督过程中的模型性能。

那么说了一大串,什么又是半监督学习呢?

百度百科是这样定义的:半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习正越来越受到人们的重视。

也就是说半监督学习介于有监督学习和无监督学习之间,而伪标签就是实现半监督学习的一种技术。下面放一个比较经典的图片(看了好多博客都有它的身影)

在这里插入图片描述

也就是说,伪标签技术就是通过利用已标注数据据所训练的模型在未标注的数据上进行预测,根据预测结果对样本进行筛选,再次输入模型中进行训练的一个过程。

什么时候伪标签是有效的?什么时候无效?

当我们的数据样本相对较少的时候,那么我们的伪标签技术带来的提升是非常大的,当我们的数据足够多的时候,伪标签技术能带来的提升相对有限。

伪标签对于初始的预测是十分敏感的,所以如果我们的初始预测很差的时候(例如我们的训练样本极少(例如5,6个样本),预测很差的情况,那么伪标签技术很大概率会失效。

如何得到一个靠谱的伪标签(非常重要)

我们给出了许多分类器(越多越好),并将数据传入其中进行训练(得出预测结果为1的概率),我们将这些概率按照大小排序,取出最极端的部分,也就是说学习器认为它最可能是正/负样本的部分,如果给出的每一个分类器都把某一个样例认定为同一类别的样本,那么我们就能够认为这个样本的标签就能够作为一个靠谱的伪标签,能够放到原始数据中用来训练。

对于伪标签的实现,有很多优秀的文章都有,我就不抄过来了(只会抄哈哈哈哈哈哈哈),想要了解的搜一搜就出来啦!上述如果有错误,希望大家能够不吝赐教奥!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值