深度学习分类只有正样本_正样本和无标签学习（PU Learning）：使用机器学习恢复数据的标签...

最新推荐文章于 2023-12-15 19:50:25 发布

葱油饼味棉花糖

最新推荐文章于 2023-12-15 19:50:25 发布

阅读量2k

点赞数 1

文章标签：深度学习分类只有正样本

本文链接：https://blog.csdn.net/weixin_29504817/article/details/112203446

版权

文章来源于微信公众号 AI公园（AI_Paradise）

作者：AaronWard

编译：ronghuaiyang

原文链接：请点击

文章仅用于学习交流，如有侵权请联系删除

你有数据，但是标签并不可靠，你该怎么办？

通常情况下，公司希望对给定的任务进行机器学习，比如对数据进行分类，但却面临数据标签不足或不可靠的问题。

在这些情况下，公司可以选择手工标签他们的数据，但手工标签可能是一项苛刻的任务，也可能导致人为偏见或重大错误。如果你为正样本贴上了数据标签，但为你的负样本贴上了不可靠的标签，那该怎么办？你如何解决这个问题？

正样本和无标签学习

数据集不足的示例，下面是一个例子：

为了避免混淆，我将“未标记样本”和“不可靠的负样本”称为unknown。

PU学习(positive and unlabelled learning)是一种半监督二值分类方法，它可以从数据中的未知情况中恢复标签。它是通过从数据中的正样本中学习，并应用所学到的知识来重新标记未知样本来做到这一点的。

这种方法为任何需要对不可靠数据进行二进制分类的机器学习问题提供了好处，而不考虑领域。

应用PU学习主要有两种方法。包括：

PU Bagging 的解释

PU bagging是一种并行化的方法，它抽取unknown情况的随机子样本，并创建一个弱分类器集合来输出每个样本的分数。具体步骤包括：

Two-Step Approach 的解释

two-step方法是一种更复杂的PU学习方法，它使用机器学习技术在训练时重新标记数据。实施步骤如下：

第一步

第二步

为了展示这一点，我将使用Banknote dataset：http://archive.ics.uci.edu/ml/datasets/banknote+authentication完成一个小例子。它是一个有两个类的数据集：unauthentic和authenti

关注