r语言写内曼最优分配_R语言最优分箱包smbinning

最新推荐文章于 2023-03-26 17:49:42 发布

h61102725

最新推荐文章于 2023-03-26 17:49:42 发布

阅读量739

点赞数 1

文章标签： r语言写内曼最优分配

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30514427/article/details/111912664

版权

在风险控制的评分卡建模中，数值型变量的分箱处理至关重要。R语言的smbinning包利用最优分箱方法进行数据离散化，基于条件推断决策树算法。该包在排除缺失值后寻找分割点，并在计算IV值时考虑缺失值。安装smbinning包后，若先前调用了RMySQL，需先卸载以避免连接错误。smbinning函数的主要参数包括数据框、响应变量、连续变量和每组样本占比。通过示例展示了如何使用该包进行分箱，并通过四幅图展示分箱结果的分布、坏样本率和WOE值。

摘要由CSDN通过智能技术生成

在风控中评分卡模型中需要对数值型连续变量进行分箱处理，这个过程又被称为数据离散化。smbinning包是采用最优分箱的方法进行数值型变量的离散化处理的，即条件推断决策树(Conditional Inference Tree)。该算法开始排除缺失值进行分割点的寻找，最后计算IV值时，会考虑缺失值。

如果没有安装smbinning，请先安装

install.packages('smbinning')

由于smbinning是依赖于RSQLite包，如果调用smbinning包之前有调用RMySQL包的话，可能会出现下面的错误：

Error in .local(drv, ...) :Failed to connect to database: Error: Can't connect to MySQL server on 'localhost' (0)

Error in !dbPreExists : invalid argument type

所以在调用smbinning包之前，如果有RMySQL包同时调用，需要先将

RMySQL 包卸掉：detach("package:RMySQL")

调用smbinning包library(smbinning)

最优分箱函数：smbinning(df, y, x, p = 0.05)

各个参数的意义如下：

df 为数据框； y为响应变量(0,1)，必须是整数且变量名不能包含”.”； x 连续性变量，至少5个不同的值且变量名不能包含”.”；p 每组样本占比，默认5%，即分箱之后每组样本数不能小于5%。该参数区间为0-0.5；

示例：

首先查看数据结构str(chileancredit)

cbs1根据目标变量fgood字段进行分箱并保存：result

可以查看result的结果：

可以看到各个分箱详细信息，包括分箱值、样本数、好样本数、坏样本数、WOE值及iv值；###设置2*2的绘图样式###

par(mfrow=c(2,2))

###在第一幅图中绘制在fgood的条件下的cbs1的箱图###

boxplot(chileancredit$cbs1~chileancredit$fgood,

horizontal=TRUE, frame=FALSE, col="lightgray",main="Distribution")

mtext("Credit Score",3)

###第二幅图中绘制分箱后的分布图###

smbinning.plot(result,option="dist",sub="Credit Score")

###第三幅图中绘制分箱后的坏样本率###

smbinning.plot(result,option="badrate",sub="Credit Score")

###第四幅图中绘制分箱后WOE值###

smbinning.plot(result,option="WoE",sub="Credit Score")

par(mfrow=c(1,1))

得到的图片如下：

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。