伪标签(Pseudo-Labelling)

最新推荐文章于 2024-03-17 22:08:08 发布

Fitz1318

最新推荐文章于 2024-03-17 22:08:08 发布

阅读量1.2w

点赞数 35

分类专栏：深度学习

原文链接：https://zhuanlan.zhihu.com/p/157325083

版权

深度学习专栏收录该内容

35 篇文章 3 订阅

订阅专栏

大数据时代中，在推荐、广告领域样本的获取从来都不是问题，似乎适用于小样本学习的伪标签技术渐渐淡出了人们的视野，但实际上在样本及其珍贵的金融、医疗图像、安全等领域，伪标签学习是一把锋利的匕首，简单而有效。

伪标签的定义

伪标签的定义来自于半监督学习，半监督学习的核心思想是通过借助无标签的数据来提升有监督过程中的模型性能。

举个简单的半监督学习例子，我想去训练一个通过胸片图像来诊断是否患有乳腺癌的模型，但是专家标注一张胸片图像要收费，于是我掏空自己的钱包让专家帮我标注了10张胸片，可是我这10张图片又要划分训练集测试集，咋训练看着都要过拟合哇，这可咋办？

聪明的我问了问专家，说不标注的胸片要钱吗？专家一愣，不要钱，随便拿（此处忽略病人隐私的问题，单纯举例子）。于是我掏出1张标注的胸片，换了10张没标注的胸片，在专家还没缓过劲之前先溜了。

回到家里，我就开始了如图所示的半监督学习过程~

粗略来讲，伪标签技术就是利用在已标注数据所训练的模型在未标注的数据上进行预测，根据预测结果对样本进行筛选，再次输入模型中进行训练的一个过程。

但实际上，伪标签技术在具体应用的细节上，远没有说的如此简单，那让我们先看一下伪标签技术的具体做法吧。

伪标签的具体用法

伪标签技术的使用自由度非常高，在这里我们介绍最常用的也是最有效的三种，对于某些特殊场景，可能有更花哨的方法，这里希望能抛砖引玉，为大家拓宽一下视野。

入门版

1. 使用标记数据训练有监督模型M

2. 使用有监督模型M对无标签数据进行预测，得出预测概率P

3. 通过预测概率P筛选高置信度样本

4. 使用有标记数据以及伪标签数据训练新模型M’

进阶版

1. 使用标记数据训练有监督模型M

2. 使用有监督模型M对无标签数据进行预测，得出预测概率P

3. 通过预测概率P筛选高置信度样本

4. 使用有标记数据以及伪标签数据训练新模型M’

5. 将M替换为M’，重复以上步骤直至模型效果不出现提升

创新版

1. 使用标记数据训练有监督模型M

2. 使用有监督模型M对无标签数据进行预测，得出预测概率P

3. 将模型损失函数改为Loss = loss(labeled_data) + alpha*loss(unlabeled_data)

4. 使用有标记数据以及伪标签数据训练新模型M’

*loss(unlabeled_data)*

4. 使用有标记数据以及伪标签数据训练新模型M’

关注

35
点赞
踩
189

收藏

觉得还不错? 一键收藏
7
评论
伪标签(Pseudo-Labelling)

大数据时代中，在推荐、广告领域样本的获取从来都不是问题，似乎适用于小样本学习的伪标签技术渐渐淡出了人们的视野，但实际上在样本及其珍贵的金融、医疗图像、安全等领域，伪标签学习是一把锋利的匕首，简单而有效。伪标签的定义伪标签的定义来自于半监督学习，半监督学习的核心思想是通过借助无标签的数据来提升有监督过程中的模型性能。举个简单的半监督学习例子，我想去训练一个通过胸片图像来诊断是否患有乳腺癌的模型，但是专家标注一张胸片图像要收费，于是我掏空自己的钱包让专家帮我标注了10张胸片，可是我这10张图片又要划分.
复制链接

扫一扫

专栏目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。