【风控】非平衡样本问题的定义和解决办法

最新推荐文章于 2024-05-23 09:52:23 发布

anpan1953

最新推荐文章于 2024-05-23 09:52:23 发布

阅读量577

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/datalearner/p/11454944.html

版权

定义

各类别的出现概率不均衡的情况

如信用风险中正常用户远多于逾期、违约用户；流失风险中留存用户多于流失用户

隐患

降低对少类样本的灵敏性。但我们建模就是要找到这少类样本，所以必须对数据加以处理，来提高灵敏性。

解决方案

1. 过采样

对坏的人群提高权重，即复制坏样本，提高坏样本的占比。

优点：

简单，对数据质量要求不高

缺点：

容易过拟合

2. 欠采样

对好的人群降低权重，通过抽样，降低好样本的占比

优点：

简单，对数据质量要求不高

缺点：

丢失重要信息

3. Smote 合成少数过采样技术

优点：

不易过拟合，保留信息

缺点：

不能对有缺失值和类别变量做处理（原始smote方法）

解决办法：可以将类别型进行编码或聚类，对缺失值进行处理后再使用

操作方法：

1. 最邻近算法，计算出每个少数类样本的k个近邻

对于每个违约样本，计算出其k个近邻违约样本

2. 从k个近邻中随机挑选n个样本进行随机线性插值 （n<=k）

随机降低过拟合风险
线性保证方法高效简单（见下方公式）

3. 构造新的少数类样本

New = x_i + rand(0,1) * (y_j - x_i) , j = 1,2,...,n

其中x_i为少类中的一个观测点，y_j为k个邻近中随机抽取的样本

上万的样本，5%左右违约率可以了，不需做以上处理。

或者使用带权重的对于样本的考量，比如从业务的角度，出现一个坏的，会抵消20个号的影响，则可以认为好坏比为20比1

4. 将新样本与原数据合成，产生新的训练集

在冷启动时，没有好坏客户的数据，一般用通过率来验证模型的好坏。不能过高，也不能很低。

转载于:https://www.cnblogs.com/datalearner/p/11454944.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。