PU learning

一、背景介绍

现实生活许多例子只有正样本和大量未标记样本,这是因为获取负类样本较为困难、负类数据太过多样化且动态变化。比如在推荐系统,用户点击为正样本,却不能因为用户没有点击就认为它是负样本,因为可能样本的位置很偏,导致用户没有点击。

PU Learning(Positive-unlabeled learning)是半监督学习的一个研究方向,指在只有正类和无标记数据的情况下,训练二分类器,伊利诺伊大学芝加哥分校(UIC)的刘兵(Bing Liu)教授和日本理化研究所的杉山将(Masashi Sugiyama)实验室对PU Learning有较深的研究。

二、方法介绍

目前有两种解决方法:

1、启发式地从未标注样本里找到可靠的负样本,以此训练二分类器,该方法问题是分类效果严重依赖先验知识

2、将未标注样本作为负样本训练分类器,由于负样本中含有正样本,错误的标签指定导致分类错误。

2.1 直接利用标准分类方法

将正样本和未标记样本分别看作是positive samples和negative samples, 然后利用这些数据训练一个标准分类器。分类器将为每个物品打一个分数(概率值),通常正样本分数高于负样本的分数,因此对于那些未标记的物品,分数较高的最有可能为positive。

这种朴素的方法在文献Learning classifiers from only positive and unlabeled data中有介绍。论文核心结果是,在某些基本假设下,合理利用正例和未贴标签数据进行训练得到的标准分类器应该能够给出与实际正确分数成正比的分数。

2.2 PU bagging

a)通过将所有正样本和未标记样本进行随机组合来创建训练集;

b)利用这个“bootstrap”样本来构建分类器,分别将正样本和未标记样本视为positive和negative

c)将分类器应用于不在训练集中的未标记样本 - OOB(“out of bag”)- 并记录其分数;

d)重复上述三个步骤,最后为每个样本的分数为OOB分数的平均值。

通过bagging的方法可以将所有未标记样本进行分类(粗),增大了分类精度。描述这种方法的一篇论文是A bagging SVM to learn from positive and unlabeled examples。该方法优于使用PU学习的最新方法的性能,特别是当正例的数量有限并且未标记的例子中的负片的比例小时。所提出的方法也可以比现有技术方法运行得快得多,特别是当未标记的示例集很大时。

2.3 Two-step approaches

大部分的PU learning策略属于“two-step approaches”。最近的一篇介绍这些方法的论文是 An Evaluation of Two-Step Techniques for Positive-Unlabeled Learning in Text Classification

a)识别可以百分之百标记为negative的未标记样本子集(“reliable negatives”);需要较大的人工标注

b)使用正负样本训练标准分类器并将其应用于剩余的未标记样本

2.4 Positive unlabeled random forest

这里值得一提的关于PU learning的最新一个发展是文献Towards Positive Unlabeled Learning for Parallel Data Mining: A Random Forest Framework中提出的一种算法。

所提议的框架,称为PURF(正无标签随机森林),能够从正面和未标记实例中学习,通过并行计算根据UCI数据集上的实验,通过完全标记数据训练的RF实现可比较的分类性能。该框架将包括广泛使用的PU信息增益(PURF-IG)新开发的PU基尼指数(PURF-GI)的PU学习技术与可扩展的并行计算算法(即RF)相结合。

并行化步骤:

1、创建t棵树、4个进程,每个进程负责创建t/4棵决策树,创建好的t/4棵决策树以列表形式返回主进程;

2、分别得到4个子进程的决策树列表后,将4个子列表整合到一个长度为t的决策树列表L;

3、创建4个分类进程,将决策树列表复制4份分别传递到4个分类进程,同时将测试数据分成4份,[0,388]行为第1部分,[389,777]行为第2部分,[778,1166]行为第3部分,[1167,1558]行为第4部分,分别传递到4个分类子进程;

4、第一个子进程以列表的形式返回[0,388]行的分类结果,第二个子进程以列表的形式返回[389,777]行的分类结果,第三个子进程以列表的形式返回[778,1166]行的分类结果,第四个子进程以列表的形式返回[1167,1558]行的分类结果。

5、分别得到4个子进程的标签列表之后,将4个子列表整合到一个长度为1559的结果标签列表。

2.5 参考代码(介绍)

https://roywright.me/2017/11/16/positive-unlabeled-learning/(Positive-unlabeled learning)

https://github.com/phuijse/bagging_pu/blob/master/PU_Learning_simple_example.ipynb(PU_Learning_simple_example.ipynb)

https://github.com/roywright/pu_learning/blob/master/circles.ipynb(PU learning techniques applied to artificial data“circle”)

三、Estimating the Class Prior in Positive and Unlabeled Data through Decision Tree Induction(类先验)

论文通过决策树归纳对数据子域概率给出下限,随着标记示例比率的增加,该下限更接近实际概率。论文方法的估计与现有技术方法的估计一样准确,并且速度提高了一个数量级。

3.1 应用背景

1、医疗记录通常只列出每个人的诊断疾病,而不是该人没有的疾病,没有诊断并不意味着患者没有患病;

2、知识库(KB)完成的任务本质上也是一个积极且无标签的问题,自动构造的KB只包含真实的事实,并不完整,未包括在KB中的事实的真值是未知的,但并不一定错误;

3、文本分类也可通过正样本和未标记数据来表征,如对用户的网页首选项进行分类可以将带书签的页面用作正例,将所有其他页面用作未标记的页面。

3.2 方法介绍

知道标签频率c(为正样本或副样本)大大简化了PU学习。首先,可以训练概率分类器来预测Pr,并调整输出概率;其次,使用相同的分类器对未标记的数据进行加权,然后对加权数据训练不同的分类器。第三,使用下列等式修改学习算法,如基于计数的算法——树归纳和朴素贝叶斯,只考虑数据的属性条件子集中正例和负例的数量。标签频率可通过三种方式获得:来自领域知识、通过从小的完全标记数据集估计、直接根据PU数据估算。

论文提出了一种简单有效的方法估计类先验,该方法基于以下观点:标签频率预期在属性的任何子域中相同,数据的子集自然地暗示标签频率的下限。使用基于PU数据的决策树归纳可以容易地找到可能的正子域。论文将以下先前估计方法进行比较,使用了“完全随机选择”假设:EN(Elkan和Noto 2008),PE(du Plessis和Sugiyama 2014),pen-L1(du Plessis,Niu和Sugiyama 2015),KM1和KM2(Ramaswamy,Scott和Tewari 2016),AlphaMax(Jain等人2016)和AlphaMax N(Jain,White和Radivojac 2016)。与这些论文的作者一样,本文对数据集二次抽样,最多包含2000个示例,并重复该过程五次。

论文目标是深入了解TIcE(Tree Induction for Label Frequency Estimation)的性能,用于c估计的树诱导,估计来自PU数据的标签频率。首先,检查在实践中是否最好采用下限的最大值或使用一个下限;其次,评估设置δ的方法;最后,将TIcE与其他类先验估计算法进行比较。

该算法将数据集分成两个独立的集合,使用一组可能是正样本的子域,并使用另一个集合通过最紧密下限来估计c在子域中的计算。寻找数据中纯子集也是决策树归纳的目标,因此TIcE通过引入决策树来寻找纯标记子集,将未标记数据视为负数。

拆分标准决策树归纳的目标是找到纯节点,使用阳性比例(max-bepp)得分的最大偏差估计值,选择给出具有最高bepp的子集的分裂:TP。

参考文献

1-Learning from Positive and Unlabeled Examples with Different Data Distributions

2-Towards Positive Unlabeled Learning for Parallel Data Mining: A Random Forest Framework

3-Positive-Unlabeled Learning with Non-Negative Risk Estimator

4-Estimating Rule Quality for Knowledge Base Completion with the Relationship between Coverage Assumption

5-Beyond the Selected Completely At Random Assumption for Learning from Positive and Unlabeled Data

6-Learning From Positive and Unlabeled Data: A Survey

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值