建模样本中正样本比例过低，怎么办？

最新推荐文章于 2021-03-10 20:36:30 发布

weixin_30300523

最新推荐文章于 2021-03-10 20:36:30 发布

阅读量966

点赞数 1

原文链接：http://www.cnblogs.com/zhangbojiangfeng/p/7737958.html

版权

http://www.sohu.com/a/199407663_692358

建模样本中正样本比例过低，怎么办？

2017-10-21 19:56

编辑推荐

样本的选择对于模型效果来说至关重要，在分类问题中，合适的正负样本比例也是好模型必不可少的条件。然而，实际接触到的样本数据中，正样本的比例往往非常低，这时候该怎么处理呢？

正样本、负样本，就是我们常说的“1”和“0”。在分类问题建模中，我们经常会遇见正样本比例过低的问题。像是风险建模时定义的“坏客户”，精准营销建模中购买过相应产品的客户，或者罹患某种疾病的病人，这些个体构成了我们建模时的正样本群体，但是由于客观原因，他们在总体中所占的比例往往非常低，比如坏客户可能本来就不怎么多。如果直接基于真实比例的样本进行建模，这会给模型的参数估计和后续使用带来不良后果，由于logistic模型使用的普遍性，我们下面基于该模型介绍一种处理这类问题的思路。

1. 利用特殊采样的方法构建有偏样本

既然总体中样本比例过低，很自然的思路就是从总体中重新抽样，提高建模样本中正样本的比例。

过采样和欠采样是比较常用的方法，前者是增加正样本的数量，后者是减少负样本的数量。如果总体中正样本的绝对数量过少，可以将所有正样本全部纳入，再抽取部分负样本构建建模样本，这种思路其实就是过采样和欠采样的结合。

通过这类特殊采样，我们可以构建一个正样本比例相对较高的建模样本(比如10%)，为了方便叙述，我们将总体中的“1”个体的比例设为p1，采样得到的特殊样本比例设为p2。需要注意的是，这个特殊样本并不是通过完全随机抽样的方法产生的，它不是总体的有效代表，而是一个有偏样本。但是理论上可以证明，如果利用该样本进行参数估计，logistic模型中只有截距项的估计值会受到样本有偏的影响，其余参数的估计值依然是可靠的。那么我们只需要将估计出的截距项进行合理的校正就可以了。

2. 参数估计及校正方法

我们知道，logistic模型的理论形式可以表示为(假设有k个自变量)：

利用前面叙述的p1和p2构建一个常量：

利用极大似然或者贝叶斯的参数估计方法，可以估计出logistic模型的参数a以及b1，b2,…, bk，那么截距项a的校正值为：

a' = a - con

关于该校正方法的理论推导，我们就不过多探讨了，这里只是给出结论。实际上，该方法很早就被一些专业的数据挖掘软件所采用，比如SAA软件的proc logistic就收纳了该方法来应对特殊采样的参数校正。

我们可以做一个模拟，从标准正态分布中产生10000个随机数作为x，然后将概率p = exp(-3.35+2x)/(1+exp(-3.35+2x))作为二项分布中出现1的概率，产生10000个0或者1的随机数，将该随机数作为因变量y，那么该数据中1的比例约为10%。基于该数据集进行特殊采样，将所有1全部纳入特殊样本，再从所有y=0中按照抽取和y=1个数相等的样本，这样特殊样本中y=1的样本比例约为50%。如果基于特殊样本建模，利用极大似然法估计出的a和b分别是-1.2858和2.0712，正如前面交代的，截距项的估计值与真实值差距较大，而斜率项估计则较为准确。如果进行校正，将p1和p2直接取为0.1和0.5，那么常量con=2.1972，校正后的截距项为-3.483，更接近真实值。

3. 参数校正的影响

对基于特殊抽样而估计出的建模参数进行校正，不影响模型的评价，而且在有些业务场景中，更是有益于模型的后续实施，下面分别介绍。

(1) 不会影响AUC

我们在之前的文章中曾经说过，AUC的值等于ROC曲线下面的面积，但是如果要求出AUC的值，有更加简单的方法，因为该指标等价于非参数检验中的Mann-Whitney统计量，而该统计量正是基于秩而构造出来的。简单来讲，将模型预测出的概率从低到高进行排序，并给出每个样本的概率值所对应的秩，不妨假设所有负样本的秩和为s，负样本的个数为n，正样本的个数为p，那么：

由于模型预测的概率值是由logistic函数：

计算而来的，该函数是单调增函数，参数校正其实就是从截距项上减去一个常量con，这会降低所有样本的概率值，但是不会影响概率值的秩，从而也就不会影响AUC的值。而n和p是由样本来决定的，与校正完全无关，因此参数校正不会影响AUC的值。

(2) 不会影响K-S

K-S值来源于Kolmogorov-Smirnov检验统计量：

其中和分别表示样本中正样本和负样本的经验分布函数，K-S指标表示正样本和负样本预测概率的经验分布的最大垂直距离。由于参数校正没有影响概率值的秩，从而也就不会影响经验分布以及由此产生的KS值。

(3) 对模型的后续实施的影响

尽管参数校正不会影响预测概率的相对位置，但是会使预测出的概率值降低，从而使得预测出的概率值是更接近个体的真实概率。在精准营销中，我们有时会给出一个确定的阈值，将预测概率高于该阈值的个体实施营销策略，这样校准后的概率无疑会使得精准营销的名单更加合理，但是如果我们只是确定概率排名前5%或者10%的个体实施实施营销策略，那么校准与否不会对精准营销名单产生影响。在信用评分中，违约概率决定了信用评分的高低，有时候还会涉及多个模型的评分对比，那么参数校正也是非常重要的。

4. 结语

既然特殊抽样后还需要校正，那么为何不直接抽取与总体一致的正样本比例的建模样本呢？一方面，正样本比例过低，会给模型的参数估计带来不良的影响，模型的误差会增加；另一方面，实际操作方法也是由具体数据情况决定的，比如我们有10,0000个样本，其中只有500个正样本，为了确保正样本特征的完整呈现，合理的做法应该是将这500个样本全部纳入建模样本，为了节约模型的训练时间，往往会少抽取一些负样本，这样特殊抽样也就不可避免。

关于我们

我们是KPMG专业数据挖掘团队，在微信公众号（kpmgbigdata）中，我们会在每周六晚8点准时推送一篇原创文章。文章都是由项目经验丰富的博士以及资深顾问精心准备，内容也是结合实际业务的理论应用和心得体会等干货。欢迎大家关注我们的微信公众号，关注原创数据挖掘精品文章。如果想要联系我们，也可以在公众号中直接发送想说的话与我们联系交流。返回搜狐，查看更多

转载于:https://www.cnblogs.com/zhangbojiangfeng/p/7737958.html

weixin_30300523

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
建模样本中正样本比例过低，怎么办？

http://www.sohu.com/a/199407663_692358建模样本中正样本比例过低，怎么办？2017-10-21 19:56编辑推荐样本的选择对于模型效果来说至关重要，在分类问题中，合适的正负样本比例也是好模型必不可少的条件。然而，实际接触到的样本数据中，正样本的比例往往非常低，这时候该怎么处理呢？正样本、负样本，就是我们常说的“1”和“0”。...
复制链接

扫一扫