【每周一文】Learning Classifiers from Only Positive and Unlabeled Data(2008)

概述

本文也是用于求解PULearning问题,并且提出在样本满足一定分布情况下,根据正样本和未标记样本作为负样本训练出来的分类模型,预测出来的结果和该样本属于正样本的概率存在一个固定常数系数。
根据该假设提出两种模型训练思路,能够得到最好的效果。

问题求解

对于给定的样本数据引入第三个随机变量S表示该样本是否被标记过,则p(x,y,s)满足一定的概率分布。
变量含义x为样本特征数据;y为样本标签,y=1表示为正样本;s=1表示该样本是否是标记过的样本,如果s=1则该样本被标记过,此时y肯定为1.
问题转变为求解p(y=1|x,s=0)的概率。
根据以上随机变量定义,则有:
p(s=1| x,y=0)=0,如果某样本为负样本并且该样本标记为1,和假设矛盾,概率为0;即只有正样本被标记。
此外还假设正样本选取满足一个概率分布,和特征没有关系,即p(s=1|x,y=1)=p(s=1|y=1),即“selected completely at random”这里我们将此值即为c=p(s=1|y=1)

原理

根据以上假设样本数据是按照某分布p(x,s,y)生成的,并且满足以上两个条件。
假设g(x)是对数据s=1和s=0得到的分类器,目标转换为寻找真实分类器f(x)和g(x)的关系。

p(y=1|x) = p(s=1|x)/c
1. 即f(x)和g(x)只相差一个常数值。
2. 简单推导P(y=1|x)=p(y=1^s=1|x) —前提假设
=p(y=1|x)p(s=1|y=1,x) —-条件概率
=p(y=1|x)p(s=1|y=1) ——前提假设2

常数C的估计算法

根据上述定理,问题转换为求解常数c,有几个策略可以用于估计c
一般思路是通过交叉验证获取,假设交叉验证集合为V,其中正样本集合为P。

策略一: e1=1nxPg(x) ,如果x为正样本此时g(x)=p(s=1|y=1)
策略二: e2=xPg(x)xVg(x)
策略三: e3<

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值