信用评分卡建模：样本不均衡处理方法总结

最新推荐文章于 2024-09-04 22:17:24 发布

置顶小·幸·运

最新推荐文章于 2024-09-04 22:17:24 发布

阅读量2.2k

点赞数

分类专栏：机器学习评分卡模型文章标签：机器学习

本文链接：https://blog.csdn.net/vir_lee/article/details/114546022

版权

机器学习同时被 2 个专栏收录

14 篇文章 1 订阅

订阅专栏

评分卡模型

6 篇文章 0 订阅

订阅专栏

前言

在实际的评分卡开发中，会出现样本不均衡问题，比如违约样本远少于不违约样本，，通常将少数样本（坏样本）定义为正样本，多数样本（好样本）定义为负样本。要求模型对正负样本均有较好的区分能力，但样本不均衡的情况下则很难实现。样本不均衡会在特征选择，模型训练，评估指标等环节均产生严重影响，降低模型性能。
本文依次从数据层，算法层和模型评估层介绍样本不均衡的处理方法。

一数据层

1. 数据层下采样方法

1）随机下采样方法

自助法抽样（Bootstrap Sampling）：有放回的抓取m个多数样本，与少数样本构成训练子集。

2）样本邻域选择的下采样方法

考虑样本分布上的相互影响，根据距离策略选择不同区域的采样过程。
i）NearMiss_1: 从局部范围出发实现下采样过程
ii）NearMiss_2: 从全局范围出发实现下采样过程
iii）NearMiss_3: 保证正样本与多个负样本关联

3）样本邻域清理的下采样方法

上面是选择最好的区域完成建模，而本方法则是通过剔除易混叠样本完成下采样过程。
i）清理Tomek Links法

如下图对于每一个正样本，寻找一个负样本，使两个样本构成Tomek-Links对，其中A，B，C均为边界对，D，E为噪声对，对于边界对，删除负样本可以使分类边界更清晰，对于噪声对，则要将正负样本都剔除，以提升分类效果。

ii）ENN（Edited Nearest Neighbor rule）算法
该算法在清理Tomek Links方法基础上，把最近邻变成3近邻，对于每一个负样本，周围的三个样本，如果有2个以上为正样本，通过投票选择方式，将该负样本剔除，该方法一般用来清理正样本中的噪声点或异常点。

4）Bagging集成的下采样方法

代表性方法如 EasyEnsemble方法，该方法通过自助采样法（bootstrap sampling）有放回的随机抓取n个负样本，与正样本构成一个数据子集，通过构造m个这样的数据子集，训练m个分类器，最后的预测结果为这m个预测结果的加权求和。

5） Boosting集成的下采样方法

串行的训练m个分类器，对于分类器当前的分类结果，在下次分类时，对分错的样本给予更高的权重，增加错分样本的关注度，通过m次训练，即可得到效果更好的分类规则。代表方法如 ‘BalanceCascade’方法：
该方法用训练得到的模型，对多数样本进行预测，每次将分类正确的样本移出训练集，错分样本保留作为下一次的候选集，在该候选集选取均等的适量的负样本，与正样本构成下一个训练子集，直到错分的样本少于少数样本为止。

2. 数据层上采样方法

1）随机上采样方法

2）SMOTE（Synthetic Minority Oversampling Technique）方法

在考虑样本邻域的前提下，在少数样本与其邻域样本构成的集合中，进行随机线性插值，得到上采样的样本。但是要注意，离散变量的上采样差值可能无意义，比如：{男：1，女：0}，差值0.6就没有实际意义，因此需要变量编码。
特点：该方法增加了少数样本的多样性，相比随机上采样，不易过拟合，增加少数样本泛化能力，但减少了多数样本泛化空间，模型在多数样本的表现会降低。

3）Borderline -SMOTE样本生成方法

SMOTE方法是一种无监督方式，没有过多考虑样本邻域中每个样本的类别关系，在Tomek-Links方法的图中，我们将样本分为安全样本，边界样本，噪声样本，如果在安全样本中生成新样本会冗余，在噪声样本中生成新样本，会降低模型分类性能，本方法找到边界样本，然后按照SMOTE方法生成少数样本，提升模型在边界处的分类性能。