1.什么是伪标签
伪标签方法是一种同时从未标记数据和标记数据中学习的监督范式。将具有最大预测概率的类作为伪标签。形式化后等价于熵正则化(Entropy Regularization)或熵最小化(Entropy Minimization).
根据半监督学习的假设,决策边界应该尽可能通过数据较为稀疏的区域,即低密度区域,从而避免把密集的样本数据点分到决策边界的两侧,也就是说模型需要对未标记数据做出低熵预测,即熵最小化。伪标签方法是有利于熵最小化的,即伪标签的目标其实就是熵最小化。
Loss function分为真实标签部分和伪标签部分,伪标签部分的权重使用a(t)来进行调节,如果a(t)特别小,那么伪标签将不会起到作用。
其中a(t)是一个确定性模拟退火过程,有助于在优化过程中避免较差的局部极小值,使未标记数据的伪标签尽可能地与真实标签相似。
2.伪标签为何有效
- 分类边界应位于低密度区域
半监督学习的目标是利用未标记数据提高泛化性能。聚类假设(Cluster Assumption)提出决策边界应位于低密度区域,以提高泛化性能。由于嵌入惩罚项后,一个数据样本的相邻点与该样本有相似的激活,因此在高密度区域的数据样本更有可能具有相同的标签。
使用相同假设的还有Semi-Supervised Embedding和Manifold Tangent Classifier - 熵最小化
熵正则化or熵最小化是一种在最大后验估计框架下从未标记数据中获益的方法。
类概率的条件熵可以用来度量类重叠。通过最小化未标记数据的熵,可以减少类概率分布的重叠,类概率分布的重叠减少,决策边界数据点的密度降低,也就是说,有利于类之间的低密度分离,而这是半监督学习的普遍假设前提。
后验分布的最大化估计:
通过最大化标记数据的条件对数似然(第一项)和最小化未标记数据的熵(第二项),我们可以得到使用未标记数据的更好的泛化性能。
3.伪标签有什么效果
通过上面的分析可知,伪标签可以减少类重叠,所以直观来说,加入伪标签后,类边界会更清晰,学习到的类应该更紧凑。pseudo-label论文中用在MNIST上的embedding的t-sne可视化清晰的展示了伪标签的效果。(b)图中的类边界明显要更清晰一些,重叠更少。