建模样本中正样本比例过低,怎么办?

http://www.sohu.com/a/199407663_692358

建模样本中正样本比例过低,怎么办?

编辑推荐

样本的选择对于模型效果来说至关重要,在分类问题中,合适的正负样本比例也是好模型必不可少的条件。然而,实际接触到的样本数据中,正样本的比例往往非常低,这时候该怎么处理呢?

正样本、负样本,就是我们常说的“1”和“0”。在分类问题建模中,我们经常会遇见正样本比例过低的问题。像是风险建模时定义的“坏客户”,精准营销建模中购买过相应产品的客户,或者罹患某种疾病的病人,这些个体构成了我们建模时的正样本群体,但是由于客观原因,他们在总体中所占的比例往往非常低,比如坏客户可能本来就不怎么多。如果直接基于真实比例的样本进行建模,这会给模型的参数估计和后续使用带来不良后果,由于logistic模型使用的普遍性,我们下面基于该模型介绍一种处理这类问题的思路。

1. 利用特殊采样的方法构建有偏样本

既然总体中样本比例过低,很自然的思路就是从总体中重新抽样,提高建模样本中正样本的比例。

过采样和欠采样是比较常用的方法,前者是增加正样本的数量,后者是减少负样本的数量。如果总体中正样本的绝对数量过少,可以将所有正样本全部纳入,再抽取部分负样本构建建模样本,这种思路其实就是过采样和欠采样的结合。

通过这类特殊采样,我们可以构建一个正样本比例相对较高的建模样本(比如10%),为了方便叙述,我们将总体中的“1”个体的比例设为p1,采样得到的特殊样本比例设为p2。需要注意的是,这个特殊样本并不是通过完全随机抽样的方法产生的,它不是总体的有效代表,而是一个有偏样本。但是理论上可以证明,如果利用该样本进行参数估计,logistic模型中只有截距项的估计值会受到样本有偏的影响,其余参数的估计值依然是可靠的。那么我们只需要将估计出的截距项进行合理的校正就可以了。

2. 参数估计及校正方法

我们知道,logistic模型的理论形式可以表示为(假设有k个自变量):

利用前面叙述的p1和p2构建一个常量:

利用极大似然或者贝叶斯的参数估计方法,可以估计出logistic模型的参数a以及b1,b2,…, bk,那么截距项a的校正值为:

a' = a - con

关于该校正方法的理论推导,我们就不过多探讨了,这里只是给出结论。实际上,该方法很早就被一些专业的数据挖掘软件所采用,比如SAA软件的proc logistic就收纳了该方法来应对特殊采样的参数校正。

我们可以做一个模拟,从标准正态分布中产生10000个随机数作为x,然后将概率p = exp(-3.35+2x)/(1+exp(-3.35+2x))作为二项分布中出现1的概率,产生10000个0或者1的随机数,将该随机数作为因变量y,那么该数据中1的比例约为10%。基于该数据集进行特殊采样,将所有1全部纳入特殊样本,再从所有y=0中按照抽取和y=1个数相等的样本,这样特殊样本中y=1的样本比例约为50%。如果基于特殊样本建模,利用极大似然法估计出的a和b分别是-1.2858和2.0712,正如前面交代的,截距项的估计值与真实值差距较大,而斜率项估计则较为准确。如果进行校正,将p1和p2直接取为0.1和0.5,那么常量con=2.1972,校正后的截距项为-3.483,更接近真实值。

3. 参数校正的影响

对基于特殊抽样而估计出的建模参数进行校正,不影响模型的评价,而且在有些业务场景中,更是有益于模型的后续实施,下面分别介绍。

(1) 不会影响AUC

我们在之前的文章中曾经说过,AUC的值等于ROC曲线下面的面积,但是如果要求出AUC的值,有更加简单的方法,因为该指标等价于非参数检验中的Mann-Whitney统计量,而该统计量正是基于秩而构造出来的。简单来讲,将模型预测出的概率从低到高进行排序,并给出每个样本的概率值所对应的秩,不妨假设所有负样本的秩和为s,负样本的个数为n,正样本的个数为p,那么:

由于模型预测的概率值是由logistic函数:

计算而来的,该函数是单调增函数,参数校正其实就是从截距项上减去一个常量con,这会降低所有样本的概率值,但是不会影响概率值的秩,从而也就不会影响AUC的值。而n和p是由样本来决定的,与校正完全无关,因此参数校正不会影响AUC的值。

(2) 不会影响K-S

K-S值来源于Kolmogorov-Smirnov检验统计量:

其中和分别表示样本中正样本和负样本的经验分布函数,K-S指标表示正样本和负样本预测概率的经验分布的最大垂直距离。由于参数校正没有影响概率值的秩,从而也就不会影响经验分布以及由此产生的KS值。

(3) 对模型的后续实施的影响

尽管参数校正不会影响预测概率的相对位置,但是会使预测出的概率值降低,从而使得预测出的概率值是更接近个体的真实概率。在精准营销中,我们有时会给出一个确定的阈值,将预测概率高于该阈值的个体实施营销策略,这样校准后的概率无疑会使得精准营销的名单更加合理,但是如果我们只是确定概率排名前5%或者10%的个体实施实施营销策略,那么校准与否不会对精准营销名单产生影响。在信用评分中,违约概率决定了信用评分的高低,有时候还会涉及多个模型的评分对比,那么参数校正也是非常重要的。

4. 结语

既然特殊抽样后还需要校正,那么为何不直接抽取与总体一致的正样本比例的建模样本呢?一方面,正样本比例过低,会给模型的参数估计带来不良的影响,模型的误差会增加;另一方面,实际操作方法也是由具体数据情况决定的,比如我们有10,0000个样本,其中只有500个正样本,为了确保正样本特征的完整呈现,合理的做法应该是将这500个样本全部纳入建模样本,为了节约模型的训练时间,往往会少抽取一些负样本,这样特殊抽样也就不可避免。

关于我们

我们是KPMG专业数据挖掘团队,在微信公众号(kpmgbigdata)中,我们会在每周六晚8点准时推送一篇原创文章。文章都是由项目经验丰富的博士以及资深顾问精心准备,内容也是结合实际业务的理论应用和心得体会等干货。欢迎大家关注我们的微信公众号,关注原创数据挖掘精品文章。如果想要联系我们,也可以在公众号中直接发送想说的话与我们联系交流。返回搜狐,查看更多

转载于:https://www.cnblogs.com/zhangbojiangfeng/p/7737958.html

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值