半监督伪标签

pythonSuperman

已于 2024-03-09 13:40:24 修改

阅读量291

点赞数 1

分类专栏：深度学习文章标签：人工智能机器学习

于 2024-03-09 13:30:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/llf000000/article/details/136564903

版权

深度学习专栏收录该内容

54 篇文章 3 订阅

订阅专栏

什么是半监督学习

半监督学习也是一类更接近于人类学习方法的机器学习范式。试想这样一个场景，我们小时候学习识别小猫、小狗、汽车等等物品时，往往只需要父母进行一两次的指导，我们就能很准确地辨认出什么是猫狗。这背后有一个重要原因是，我们从出生开始就见过很多次小猫、小狗等等动物，虽然还没有人明确告诉过我们这些动物是什么，但我们的大脑已经对于这些事物建立了足够的认识。整个过程抽象出来与半监督学习的思想很相似，父母的指导可视为有标签数据，出生之后的目之所见即为无标签数据，二者结合帮助我们实现快速地学习。

因此，半监督学习技术既是少样本学习的重要路径之一，也有助于帮助我们发展更接近于人类学习范式的机器学习技术。

什么是伪标签技术

伪标签的定义来自于半监督学习，半监督学习的核心思想是通过借助无标签的数据来提升有监督过程中的模型性能。

半监督学习的过程

为标签的具体用法

伪标签技术的使用自由度非常高，在这里我们介绍最常用的也是最有效的三种，对于某些特殊场景，可能有更花哨的方法，这里希望能抛砖引玉，为大家拓宽一下视野。

入门版

1. 使用标记数据训练有监督模型M

2. 使用有监督模型M对无标签数据进行预测，得出预测概率P

3. 通过预测概率P筛选高置信度样本

4. 使用有标记数据以及伪标签数据训练新模型M’

进阶版

1. 使用标记数据训练有监督模型M

2. 使用有监督模型M对无标签数据进行预测，得出预测概率P

3. 通过预测概率P筛选高置信度样本

4. 使用有标记数据以及伪标签数据训练新模型M’

5. 将M替换为M’，重复以上步骤直至模型效果不出现提升

创新版

1. 使用标记数据训练有监督模型M

2. 使用有监督模型M对无标签数据进行预测，得出预测概率P

3. 将模型损失函数改为Loss = loss(labeled_data) + alpha*loss(unlabeled_data)

4. 使用有标记数据以及伪标签数据训练新模型M’

以上就是伪标签学习最常用的三种方法。

本着知其然、知其所以然的态度，下面介绍一下伪标签为何有效，在知道了为何有效后，才能找到其适合的场景，达到半监督学习的目的。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
半监督伪标签

伪标签的定义来自于半监督学习，。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。