半监督学习之伪标签(pseudo label,entropy minimization,self-training)

头发凌乱的鳌拜

已于 2022-02-14 09:27:06 修改

阅读量1.6w

点赞数 42

分类专栏：半监督学习文章标签：深度学习

于 2022-02-02 23:06:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oceanicC/article/details/122753639

版权

1.什么是伪标签

伪标签方法是一种同时从未标记数据和标记数据中学习的监督范式。将具有最大预测概率的类作为伪标签。形式化后等价于熵正则化（Entropy Regularization)或熵最小化（Entropy Minimization).

根据半监督学习的假设，决策边界应该尽可能通过数据较为稀疏的区域，即低密度区域，从而避免把密集的样本数据点分到决策边界的两侧，也就是说模型需要对未标记数据做出低熵预测，即熵最小化。伪标签方法是有利于熵最小化的，即伪标签的目标其实就是熵最小化。

Loss function分为真实标签部分和伪标签部分，伪标签部分的权重使用a(t)来进行调节，如果a(t)特别小，那么伪标签将不会起到作用。
在这里插入图片描述
其中a(t)是一个确定性模拟退火过程，有助于在优化过程中避免较差的局部极小值，使未标记数据的伪标签尽可能地与真实标签相似。

2.伪标签为何有效

分类边界应位于低密度区域
半监督学习的目标是利用未标记数据提高泛化性能。聚类假设（Cluster Assumption）提出决策边界应位于低密度区域，以提高泛化性能。由于嵌入惩罚项后，一个数据样本的相邻点与该样本有相似的激活，因此在高密度区域的数据样本更有可能具有相同的标签。
使用相同假设的还有Semi-Supervised Embedding和Manifold Tangent Classifier
熵最小化
熵正则化or熵最小化是一种在最大后验估计框架下从未标记数据中获益的方法。
类概率的条件熵可以用来度量类重叠。通过最小化未标记数据的熵，可以减少类概率分布的重叠，类概率分布的重叠减少，决策边界数据点的密度降低，也就是说，有利于类之间的低密度分离，而这是半监督学习的普遍假设前提。
后验分布的最大化估计：

通过最大化标记数据的条件对数似然(第一项)和最小化未标记数据的熵(第二项)，我们可以得到使用未标记数据的更好的泛化性能。

3.伪标签有什么效果

通过上面的分析可知，伪标签可以减少类重叠，所以直观来说，加入伪标签后，类边界会更清晰，学习到的类应该更紧凑。pseudo-label论文中用在MNIST上的embedding的t-sne可视化清晰的展示了伪标签的效果。（b）图中的类边界明显要更清晰一些，重叠更少。
在这里插入图片描述

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。