伪标签技术

最新推荐文章于 2024-03-17 22:08:08 发布

马飞飞

最新推荐文章于 2024-03-17 22:08:08 发布

阅读量1.7k

点赞数 1

本文链接：https://blog.csdn.net/maqunfi/article/details/107702388

版权

机器学习算法专栏收录该内容

12 篇文章 2 订阅

订阅专栏

前言

该方法主要应用于半监督问题，是一种通过有监督样本训练得到的模型，来对无标签数据进行利用的方式。

思路

1.使用思路：

（1）使用有标签数据A训练一个有监督模型。

（2）利用该模型对无标签数据进行预测，得到预测概率值。

（3）基于无标签样本概率值按照一定阀值进行真值样本抽取，生成新的有标签数据B。

（4）基于A和B重新训练模型C，并使用测试集验证模型小效果。

tips：可以发现，该方法主要适用于分类任务，因为我们需要根据一定概率置信值进行样本的筛选。

以上的步骤，可以对应如下的图：

2.该方法的有效性可以从两个角度说明：

（1）从数据分布上进行思考，原始的有标签数据较少，所以存在样本分布有偏，不全面的问题，而无标签样本中存在大量的、完善的数据样本分布情况，所以当我们用偏分布数据训练的模型对无标签数据做预测时，可以在一些共有特征分布上提取一些高置信样本，从而拿到了一些标签样本，进行样本合并后可以起到一定对数据分布情况补充的效果，提升模型的分布学习能力。

当然，因为是依靠有标签样本训练的模型为无标签样本打标签，所以有标签样本最好是分布无偏的数据，能够在问题样本空间中均匀分布，这样的样本能有更好的聚类效果，不然较有偏的数据所聚类打标的数据依然是有偏的。

（2）另一方面，在论文《Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks》中做说明，作者提出了聚类假设和熵正则化两个方面说明了该方法的有效性。也就是从高维聚类角度判别样本有效性，拿有效样本来补充原样本的数据多样性。

Low-Density Separation between Classes

“The goal of semi-supervised learning is to improve generalization performance using unlabeled data. The cluster assumption states that the decision boundary should lie in low-density regions to improve generalization performance (Chapelle et al., 2005). Recently proposed methods of training neural networks using manifold learning such as Semi-Supervised Embedding and Manifold Tangent Classifier utilize this assumption. Semi-Supervised Embedding (Weston et al., 2008) uses embedding-based regularizer to improve the generalization performance of deep neural networks. Because neighbors of a data sample have similar activations with the sample by embedding based penalty term, it’s more likely that data samples in a high-density region have the same label. Manifold Tangent Classifier (Rifai et al., 2011b) encourages the network output to be insensitive to variations in the directions of low-dimensional manifold. So the same purpose is achieved.”

Entropy Regularization

“Entropy Regularization (Grandvalet et al., 2006) is a means to benefit from unlabeled data in the framework of maximum a posteriori estimation. This scheme favors low density separation between classes without any modeling of the density by minimizing the conditional entropy of class probabilities for unlabeled data.”

实践经验

曾经在两个竞赛中使用过该方法：

（1）一个银行竞赛中，使用该思路设计了一种迭代半监督的方式，这里因为一方面因为需要使用阈值的问题，另一方面因为数据量较小的问题，设计了一种迭代设定阈值、并按照该阈值生成新标签，合并标签训练验证模型的方式，但是最终因为线上集的数据分布问题，该方法效果并不好。

（2）另一个百度赛中，因为数据量过大，直接设定了0.95的阈值，竞赛数据上，该方法在有不错的提分效果。

马飞飞

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
伪标签技术

前言该方法主要应用于半监督问题，是一种通过有监督样本训练得到的模型，来对无标签数据进行利用的方式。思路1.使用思路：（1）使用有标签数据A训练一个有监督模型。（2）利用该模型对无标签数据进行预测，得到预测概率值。（3）基于无标签样本概率值按照一定阀值进行真值样本抽取，生成新的有标签数据B。（4）基于A和B重新训练模型C，并使用测试集验证模型小效果。tips：可以发现，该方法主要适用于分类任务，因为我们需要根据一定概率置信值进行样本的筛选。以上的步骤，可以对应如下的图：
复制链接

扫一扫

专栏目录