只有正样本和无标签样本时如何构建分类器

Building Text Classifiers Using Positive and Unlabeled Examples 

Bing Liu, Yang Dai, Xiaoli Li, Wee Sun Lee, Philip S. Yu 

University of Illinois at Chicago, National University of Singapore/Singapore-MIT Alliance, IBM T. J. Watson Research Center

https://www.cs.uic.edu/~liub/publications/ICDM-03.pdf

 

 

这篇文章主要研究如何利用正样本和无标注的样本来构建文本分类算法。

 

这类问题的关键特性在于,没有可以用来学习的负样本。已有相关文献提出一些技巧来解决这类问题。

 

这些技巧基于同一套思想,意即分两步来构建分类器。这些的不同点在于,这两步利用不同的方法来实现。

 

这篇文章,首先介绍这两个步骤中的一些新方法,并且对这两步重的所有可能组合进行比较综合评估。然后,提出一种原理性更强的方法来解决该问题,基础为SVM的有偏形式,结果显示该方法更加精确。

 

 

一些现有方法的两步走策略简介如下

其中PEBL表示Positive example based learning

DNF表示Disjunctive Normal Form

 

 

 

下面是LPU的来源

 

 

下面是先前的一些理论基础

 

 

NB简介如下

 

 

其中RN表示Reliable negative

 

 

 

第二种方法的简介如下

 

 

spy方法细节描述如下

 

下面是伪代码

 

PEBL方法的伪代码如下

 

针对第二步,有以下四种技巧

 

 

其中下面是对SVM的简介

 

 

下面是EM与NB结合的细节步骤

 

 

下面是迭代SVM的步骤伪代码

 

ROC-SVM的伪代码如下

 

 

这篇文章所提方法为有偏SVM

 

 

衡量该算法的指标不能用F score,但是可以利用类似的指标,比如下面这种指标

 

数据集及分割策略如下

 

 

第一步采用的几种方法如下

 

 

第二步采用的几种方法如下

 

 

结果统计如下

 

 

 

下面是一些结论

关于S-EM

 

 

关于PEBL

 

 

关于Spy+SVM

 

 

关于其他几个的结论如下

 

 

关于NB

 

 

纯NB和纯SVM的对比如下

 

 

这篇文章所提算法跟其他算法效果对比如下

 

 

参考代码

https://github.com/aldro61/pu-learning

https://github.com/kiryor/nnPUlearning

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值