Analysis of Learning from Positive and Unlabeled Data

最新推荐文章于 2022-03-22 14:23:51 发布

zealscott

最新推荐文章于 2022-03-22 14:23:51 发布

阅读量882

点赞数 2

分类专栏： PUlearning 文章标签： PUlearning 机器学习

本文链接：https://blog.csdn.net/crazy_scott/article/details/88993424

版权

PU learning论文阅读。

本文从基本的分类损失出发，推导了PU的分类问题其实就是Cost-sensitive classiﬁcation的形式，同时，通过实验证明了如果使用凸函数作为loss function，例如hinge loss会导致错误的分类边界（有bias），因此需要使用例如ramp loss之类的凹函数。同时，论文还对先验 $\pi$ 存在偏差的情况进行了讨论，说明了如果样本中大部分都是正样本，那么就算先验差距比较大，但对总体的分类效果没有太大影响。最后对分类边界进行讨论，证明了使用PU进行分类的误差小于监督学习误差的 $2\sqrt{2}$ 倍。

基本概念和定义

Ordinary classification
- Bayes optimal classiﬁer的目标是最小化misclassiﬁcation rate，这在Introduction to Statistical Machine Learning By Masashi Sugiyama 书里有定义，直观理解就是最小化期望错分率：
- $\pi R_1 (f) + (1 - \pi) R_{-1}(f)$
- 这里的 $R_1$ 表示false negative rate，也就是分错正类的概率，乘以先验正类的概率 $\pi$
- $R_{-1}$ 表示false positive rate，也就是分错负类的概率，乘以先验负类的概率 $1-\pi$
- 这样，对分错样本的概率分别乘以其先验概率，就是其错分概率的期望。
Cost-sensitive classiﬁcation
- 如果对于某种错误我们的敏感程度不一样，那么就乘以不同的权重，重新定义为：
- $\pi c_1 R_1(f) + (1-\pi) c_{-1}R_{-1}(f)$
- 这里用 $c_1$ 和 $c_{-1}$ 分别表示对两种错分的代价
PU classification
- 定义在未标记数据集 $X $ 中的分布：
  - $P_X = \pi P_1 + (1-\pi) P_{-1}$
  - 注意，这里的

最低0.47元/天解锁文章

zealscott

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Analysis of Learning from Positive and Unlabeled Data

PU learning论文阅读。本文从基本的分类损失出发，推导了PU的分类问题其实就是Cost-sensitive classiﬁcation的形式，同时，通过实验证明了如果使用凸函数作为loss function，例如hinge loss会导致错误的分类边界（有bias），因此需要使用例如ramp loss之类的凹函数。同时，论文还对先验π\piπ存在偏差的情况进行了讨论，说明了如果样本中...
复制链接

扫一扫