伪标签技术

麻辣香郭诶

已于 2022-09-30 16:53:14 修改

阅读量1.4k

点赞数 1

分类专栏：数据挖掘学习文章标签：机器学习深度学习人工智能

于 2022-09-30 16:47:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52171945/article/details/127126045

版权

数据挖掘学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

伪标签技术

由于在2022CCF BDCI中返乡发展人群预测中，主办方提供了一个nolabel的数据集，由于并没有很好的上分思路，所以决定尝试用无监督学习的方式来利用这一部分没有标记的数据。

提到伪标签，首先它肯定是和标签有一定的关系（不然不会这么命名）。但是命名为伪标签技术，说明他不是真正意义上的标签。下面是学习伪标签过程中作的一些记录，部分来源于网络上的其他作者。

什么是伪标签

那么到底什么是伪标签？伪标签的定义来自于半监督学习，半监督学习的核心思想就是通过借助无标签的数据来提升有监督过程中的模型性能。

那么说了一大串，什么又是半监督学习呢？

百度百科是这样定义的：半监督学习(Semi-Supervised Learning，SSL)是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。当使用半监督学习时，将会要求尽量少的人员来从事工作，同时，又能够带来比较高的准确性，因此，半监督学习正越来越受到人们的重视。

也就是说半监督学习介于有监督学习和无监督学习之间，而伪标签就是实现半监督学习的一种技术。下面放一个比较经典的图片（看了好多博客都有它的身影）

在这里插入图片描述

也就是说，伪标签技术就是通过利用已标注数据据所训练的模型在未标注的数据上进行预测，根据预测结果对样本进行筛选，再次输入模型中进行训练的一个过程。

什么时候伪标签是有效的？什么时候无效？

当我们的数据样本相对较少的时候，那么我们的伪标签技术带来的提升是非常大的，当我们的数据足够多的时候，伪标签技术能带来的提升相对有限。

伪标签对于初始的预测是十分敏感的，所以如果我们的初始预测很差的时候（例如我们的训练样本极少（例如5，6个样本），预测很差的情况，那么伪标签技术很大概率会失效。

如何得到一个靠谱的伪标签（非常重要）

我们给出了许多分类器（越多越好），并将数据传入其中进行训练（得出预测结果为1的概率），我们将这些概率按照大小排序，取出最极端的部分，也就是说学习器认为它最可能是正/负样本的部分，如果给出的每一个分类器都把某一个样例认定为同一类别的样本，那么我们就能够认为这个样本的标签就能够作为一个靠谱的伪标签，能够放到原始数据中用来训练。

对于伪标签的实现，有很多优秀的文章都有，我就不抄过来了（只会抄哈哈哈哈哈哈哈），想要了解的搜一搜就出来啦！上述如果有错误，希望大家能够不吝赐教奥！

麻辣香郭诶

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

麻辣香郭诶 CSDN认证博客专家 CSDN认证企业博客

码龄4年

18: 原创

53万+: 周排名

196万+: 总排名

1万+: 访问

: 等级

213: 积分

20: 粉丝

27: 获赞

5: 评论

60: 收藏

私信

关注

热门文章

分类专栏

最新评论

李沐-动手学习深度学习（预备知识）
......748: 你好想问一下看李沐的动手学深度学习之前需要了解哪些前置知识吗，例如机器学习，还是可以直接上手
Datawhale打卡活动 Kaggle Spaceship Titanic Day2
麻辣香郭诶: 不好意思没有太懂你的意思一般来说数值类型的数据是能够直接放进模型中进行训练的需要进行训练的是那些类似于（'A','B','C'）这样的类别型的数据，具体实现方法一搜就应该能看到
Datawhale打卡活动 Kaggle Spaceship Titanic Day2
weixin_68860273: 怎么做数值的属性作labelencoder，将其转化为数值，
伪标签技术
qq_37315362: 你好，这个伪标签可不可以应用在密集预测上面？比如单目深度估计或者分割
Datawhale打卡活动Day6
dahuige111: 收获很大

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。