python建模数据分箱_数据风控建模-高维度分箱的实现方法

最新推荐文章于 2021-02-11 17:19:31 发布

weixin_39846898

最新推荐文章于 2021-02-11 17:19:31 发布

阅读量240

点赞数

文章标签： python建模数据分箱

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39846898/article/details/113492212

版权

目前在信贷风险建模领域，评分卡建模是最常见的建模方式。为了让模型更加稳定，并且具备较强的识别好坏的能力及可解释性，分箱这一步必不可少。目前不管是python还是R,都有较为成熟的分箱工具，例如等频分箱，最优分箱，卡方分箱，KS分箱等等。但这些工具都是在小样本下，即行列都很少的情况下可以使用，难以处理千万级样本，数十万维特征的场景(例如反欺诈,营销等)，另外分箱后也不一定用于建模，可以用来对外部三方数据进行监控，计算iv值的随时间的变化等等。本文就这些问题，给出目前的一个解决方案，该方案已投入生产。

在数据量及维度较少的时候(小于2000),可以采用spark来解决问题。spark中有成熟的分箱机制,在spark 2.3中可以用QuantileDiscretizer来解决问题，用2.3版本的好处是支持setInputCols,可以同时对多个列求百分位点。然后当数据量达到百万千万级，列达到1w以上，这种基于parquet格式的spark dataset方案就跑不动了，如果再加上计算iv值，总共要等待几个小时以上，效率较低。

这里可以采用将底层数据转为libsvm格式后，用spark对KV格式的数据进行处理。本身分箱及iv都是对特征的统计量，因此第一步可以将libsvm格式进行简单的转换，具体如下

equation?tex=%28sampleId%2Clabel%2Cfeatures%29%5CRightarrow%28featureId%2CfeatureValue%29

其中,features的具体格式为"fid1:value1 fid2:value2 fid3:value3"，为典型的libsvm的特征段表示；第二步，利用简单的map,reduce操作，将数据转换为如下格式:

equation?tex=%28featureId%2CfeatureValue%29%5CRightarrow%28featureId%2C%28featureValue%2CposNum%2CtotalNum%29%29

即统计每个特征的每个取值，有多少个正样本及总数，有了这些基本的统计量，后面就变得十分简单了，利用combineBykey，可以完成最后一步转换：

equation?tex=%28featureId%2C%28featureValue%2CposNum%2CtotalNum%29%29+%5CRightarrow%28featureId%2CList%3C%28featureValue%2CposNum%2CtotalNum%29%3E%29

这样就将每个特征的取值作为一个列表，再将这个列表放到下一步的map中，即可计算出分位点，同时也可以在这个map中，将分位点按照卡方值进行合并，即进一步完成卡方分箱。

以上就是解决信贷风险建模中，高维度数据分箱的一种方案。因为信贷风险领域中，连续变量的数量要远远高于类别变量，并且外部三方数据基本都是连续变量，以上方法可以作为一种实现方案投入到生产中，欢迎尝试。

weixin_39846898

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python建模数据分箱_数据风控建模-高维度分箱的实现方法

目前在信贷风险建模领域，评分卡建模是最常见的建模方式。为了让模型更加稳定，并且具备较强的识别好坏的能力及可解释性，分箱这一步必不可少。目前不管是python还是R,都有较为成熟的分箱工具，例如等频分箱，最优分箱，卡方分箱，KS分箱等等。但这些工具都是在小样本下，即行列都很少的情况下可以使用，难以处理千万级样本，数十万维特征的场景(例如反欺诈,营销等)，另外分箱后也不一定用于建模，可以用来...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。