【每周一文】Learning Classifiers from Only Positive and Unlabeled Data（2008）

最新推荐文章于 2022-03-22 14:23:51 发布

下一步

最新推荐文章于 2022-03-22 14:23:51 发布

阅读量3.7k

点赞数 2

分类专栏：每周一文 ML PULearning 文章标签：机器学习 PULearning

本文链接：https://blog.csdn.net/fangqingan_java/article/details/50918591

版权

概述

本文也是用于求解PULearning问题，并且提出在样本满足一定分布情况下，根据正样本和未标记样本作为负样本训练出来的分类模型，预测出来的结果和该样本属于正样本的概率存在一个固定常数系数。
根据该假设提出两种模型训练思路，能够得到最好的效果。

问题求解

对于给定的样本数据引入第三个随机变量S表示该样本是否被标记过，则p(x,y,s)满足一定的概率分布。
变量含义x为样本特征数据；y为样本标签，y=1表示为正样本；s=1表示该样本是否是标记过的样本，如果s=1则该样本被标记过，此时y肯定为1.
问题转变为求解p(y=1|x,s=0)的概率。
根据以上随机变量定义，则有：
p(s=1| x,y=0)=0，如果某样本为负样本并且该样本标记为1，和假设矛盾，概率为0；即只有正样本被标记。
此外还假设正样本选取满足一个概率分布，和特征没有关系，即p(s=1|x,y=1)=p(s=1|y=1)，即“selected completely at random”这里我们将此值即为c=p(s=1|y=1)

原理

根据以上假设样本数据是按照某分布p(x,s,y)生成的，并且满足以上两个条件。
假设g(x)是对数据s=1和s=0得到的分类器，目标转换为寻找真实分类器f(x)和g(x)的关系。

p(y=1|x) = p(s=1|x)/c
1. 即f(x)和g(x)只相差一个常数值。
2. 简单推导P(y=1|x)=p(y=1^s=1|x) —前提假设
=p(y=1|x)p(s=1|y=1,x) —-条件概率
=p(y=1|x)p(s=1|y=1) ——前提假设2

常数C的估计算法

根据上述定理，问题转换为求解常数c，有几个策略可以用于估计c
一般思路是通过交叉验证获取，假设交叉验证集合为V，其中正样本集合为P。

策略一： $e_1=\frac1n\sum_{x\in P}g(x)$ ，如果x为正样本此时g(x)=p(s=1|y=1)
策略二： $e_2=\frac{\sum_{x\in P}g(x)}{\sum_{x\in V}g(x)}$
策略三： e3<

最低0.47元/天解锁文章

下一步

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
3
评论
【每周一文】Learning Classifiers from Only Positive and Unlabeled Data（2008）

概述本文也是用于求解PULearning问题，并且提出在样本满足一定分布情况下，根据正样本和未标记样本作为负样本训练出来的分类模型，预测出来的结果和该样本属于正样本的概率存在一个固定常数系数。根据该假设提出两种模型训练思路，能够得到最好的效果。问题求解对于给定的样本数据引入第三个随机变量S表示该样本是否被标记过，则p(x,y,s)满足一定的概率分布。变量含义x为样本特征数据
复制链接

扫一扫