半监督学习之伪标签(pseudo label,entropy minimization,self-training)

1.什么是伪标签

伪标签方法是一种同时从未标记数据和标记数据中学习的监督范式。将具有最大预测概率的类作为伪标签。形式化后等价于熵正则化(Entropy Regularization)或熵最小化(Entropy Minimization).

根据半监督学习的假设,决策边界应该尽可能通过数据较为稀疏的区域,即低密度区域,从而避免把密集的样本数据点分到决策边界的两侧,也就是说模型需要对未标记数据做出低熵预测,即熵最小化。伪标签方法是有利于熵最小化的,即伪标签的目标其实就是熵最小化。

Loss function分为真实标签部分和伪标签部分,伪标签部分的权重使用a(t)来进行调节,如果a(t)特别小,那么伪标签将不会起到作用。
在这里插入图片描述
其中a(t)是一个确定性模拟退火过程,有助于在优化过程中避免较差的局部极小值,使未标记数据的伪标签尽可能地与真实标签相似。
在这里插入图片描述

2.伪标签为何有效

  1. 分类边界应位于低密度区域
    半监督学习的目标是利用未标记数据提高泛化性能。聚类假设(Cluster Assumption)提出决策边界应位于低密度区域,以提高泛化性能。由于嵌入惩罚项后,一个数据样本的相邻点与该样本有相似的激活,因此在高密度区域的数据样本更有可能具有相同的标签。
    使用相同假设的还有Semi-Supervised Embedding和Manifold Tangent Classifier
  2. 熵最小化
    熵正则化or熵最小化是一种在最大后验估计框架下从未标记数据中获益的方法。
    类概率的条件熵可以用来度量类重叠。通过最小化未标记数据的熵,可以减少类概率分布的重叠,类概率分布的重叠减少,决策边界数据点的密度降低,也就是说,有利于类之间的低密度分离,而这是半监督学习的普遍假设前提。
    后验分布的最大化估计:
    在这里插入图片描述
    通过最大化标记数据的条件对数似然(第一项)和最小化未标记数据的熵(第二项),我们可以得到使用未标记数据的更好的泛化性能。

3.伪标签有什么效果

通过上面的分析可知,伪标签可以减少类重叠,所以直观来说,加入伪标签后,类边界会更清晰,学习到的类应该更紧凑。pseudo-label论文中用在MNIST上的embedding的t-sne可视化清晰的展示了伪标签的效果。(b)图中的类边界明显要更清晰一些,重叠更少。
在这里插入图片描述
在这里插入图片描述

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值