Building Text Classifiers Using Positive and Unlabeled Examples
Bing Liu, Yang Dai, Xiaoli Li, Wee Sun Lee, Philip S. Yu
University of Illinois at Chicago, National University of Singapore/Singapore-MIT Alliance, IBM T. J. Watson Research Center
https://www.cs.uic.edu/~liub/publications/ICDM-03.pdf
这篇文章主要研究如何利用正样本和无标注的样本来构建文本分类算法。
这类问题的关键特性在于,没有可以用来学习的负样本。已有相关文献提出一些技巧来解决这类问题。
这些技巧基于同一套思想,意即分两步来构建分类器。这些的不同点在于,这两步利用不同的方法来实现。
这篇文章,首先介绍这两个步骤中的一些新方法,并且对这两步重的所有可能组合进行比较综合评估。然后,提出一种原理性更强的方法来解决该问题,基础为SVM的有偏形式,结果显示该方法更加精确。
一些现有方法的两步走策略简介如下
其中PEBL表示Positive example based learning
DNF表示Disjunctive Normal Form
下面是LPU的来源
下面是先前的一些理论基础
NB简介如下
其中RN表示Reliable negative
第二种方法的简介如下
spy方法细节描述如下
下面是伪代码
PEBL方法的伪代码如下
针对第二步,有以下四种技巧
其中下面是对SVM的简介
下面是EM与NB结合的细节步骤
下面是迭代SVM的步骤伪代码
ROC-SVM的伪代码如下
这篇文章所提方法为有偏SVM
衡量该算法的指标不能用F score,但是可以利用类似的指标,比如下面这种指标
数据集及分割策略如下
第一步采用的几种方法如下
第二步采用的几种方法如下
结果统计如下
下面是一些结论
关于S-EM
关于PEBL
关于Spy+SVM
关于其他几个的结论如下
关于NB
纯NB和纯SVM的对比如下
这篇文章所提算法跟其他算法效果对比如下
参考代码
https://github.com/aldro61/pu-learning
https://github.com/kiryor/nnPUlearning