伪标签(Pseudo-Labelling)

大数据时代中,在推荐、广告领域样本的获取从来都不是问题,似乎适用于小样本学习的伪标签技术渐渐淡出了人们的视野,但实际上在样本及其珍贵的金融、医疗图像、安全等领域,伪标签学习是一把锋利的匕首,简单而有效。

伪标签的定义

伪标签的定义来自于半监督学习,半监督学习的核心思想是通过借助无标签的数据来提升有监督过程中的模型性能。

举个简单的半监督学习例子,我想去训练一个通过胸片图像来诊断是否患有乳腺癌的模型,但是专家标注一张胸片图像要收费,于是我掏空自己的钱包让专家帮我标注了10张胸片,可是我这10张图片又要划分训练集测试集,咋训练看着都要过拟合哇,这可咋办?

聪明的我问了问专家,说不标注的胸片要钱吗?专家一愣,不要钱,随便拿(此处忽略病人隐私的问题,单纯举例子)。于是我掏出1张标注的胸片,换了10张没标注的胸片,在专家还没缓过劲之前先溜了。

回到家里,我就开始了如图所示的半监督学习过程~

img

粗略来讲,伪标签技术就是利用在已标注数据所训练的模型在未标注的数据上进行预测,根据预测结果对样本进行筛选,再次输入模型中进行训练的一个过程。

但实际上,伪标签技术在具体应用的细节上,远没有说的如此简单,那让我们先看一下伪标签技术的具体做法吧。

伪标签的具体用法

伪标签技术的使用自由度非常高,在这里我们介绍最常用的也是最有效的三种,对于某些特殊场景,可能有更花哨的方法,这里希望能抛砖引玉,为大家拓宽一下视野。

入门版

1. 使用标记数据训练有监督模型M

2. 使用有监督模型M对无标签数据进行预测,得出预测概率P

3. 通过预测概率P筛选高置信度样本

4. 使用有标记数据以及伪标签数据训练新模型M’

img

进阶版

1. 使用标记数据训练有监督模型M

2. 使用有监督模型M对无标签数据进行预测,得出预测概率P

3. 通过预测概率P筛选高置信度样本

4. 使用有标记数据以及伪标签数据训练新模型M’

5. 将M替换为M’,重复以上步骤直至模型效果不出现提升

img

创新版

1. 使用标记数据训练有监督模型M

2. 使用有监督模型M对无标签数据进行预测,得出预测概率P

3. 将模型损失函数改为Loss = loss(labeled_data) + alpha*loss(unlabeled_data)

4. 使用有标记数据以及伪标签数据训练新模型M’

*loss(unlabeled_data)*

4. 使用有标记数据以及伪标签数据训练新模型M’

img

  • 34
    点赞
  • 181
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
要优化标签生成算法,可以考虑以下几个方面的方法: 1. 确定阈值:标签生成算法通常会将无标签数据的预测概率与一个阈值进行比较,以决定是否生成标签。选择合适的阈值非常重要,过高的阈值可能导致过少的标签生成,而过低的阈值则可能引入大量错误的标签。可以通过交叉验证或使用验证集来调整阈值,以找到最佳的平衡点。 2. 引入可信度度量:仅仅依靠预测概率是否超过阈值来生成标签可能不足够可靠。可以引入可信度度量来衡量预测概率的置信度,例如熵、方差、置信区间等。通过结合可信度度量和阈值判断,可以提高标签生成的准确性。 3. 半监督学习方法:传统的标签生成算法通常使用有标签数据训练模型,然后将模型应用于无标签数据生成标签。但这种方法可能会引入大量的错误标签。半监督学习方法可以结合有标签数据和无标签数据进行联合训练,通过利用无标签数据的信息提升模型的性能和标签的质量。 4. 异常检测和过滤:为了去除可能的异常样本和噪声,可以运用异常检测方法来识别与已有标签不一致或异常的样本。通过过滤掉这些异常样本,可以提高标签生成算法的准确性和鲁棒性。 5. 动态调整生成策略:考虑到数据分布可能会随时间变化,标签生成策略也需要进行动态调整。可以使用滑动窗口或其他方法来跟踪数据分布的演化,并针对新的数据分布调整标签生成算法的参数或策略。 综合利用以上方法,可以不断改进标签生成算法,提高生成标签的准确性和可靠性,从而为情感漂移检测等任务提供更好的支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值