R语言
撸码小叮当
这个作者很懒,什么都没留下…
展开
-
ggplot绘制smbinning结果的数据分布情况
ggplot绘制smbinning结果的数据分布情况遇到的bug解决方式1.用ggplot批量绘制dataframe 变量的分布情况ggplot使用变量是未加引号变量,如果加引号利用ggplot绘图,比如绘制箱线图,图形异常,直接显示一条直线,此时可以使用get函数来得到数据框的变量。例如:p1出现的箱线图异常,p2正常,如果批量跑数据图像,可以使用p3来进行使用。library(smbinning)col_names=colnames(smbsimdf1)result=smbinning(df原创 2020-10-29 19:01:22 · 209 阅读 · 0 评论 -
R语言分箱
#smbinning分箱 两种方式确定切分点 ;1.根据smbinning自带的ctree算法进行分裂,找出最优分割点,然后计算woe和iv####2.如下计算方式,自己设定切分点,下面是基于数据分布的分位数进行切分per<-as.vector(quantile(traindata$m03,probs=seq(0,1,0.2),na.rm=T)) breaks<-per[2:(length(per)-1)] result_m03=smbinning.custom(df=train原创 2020-05-20 15:13:47 · 993 阅读 · 0 评论 -
变量筛选之PSI
变量筛选之PSI的计算逻辑:变量稳定性作为入模型变量筛选的其中一个标准,变量的稳定性决定了模型的稳定性,模型分数的跌宕起伏影响公司风控的把控和正确性。群体稳定性指标(population stability index)公式: psi = sum((实际占比-预期占比)* ln(实际占比/预期占比))计算例子:R语言计算代码library(smbinning)PSI_table=data.frame()###numer_namesmydata_d=mydatafor(i in 1:leng原创 2020-05-14 18:18:33 · 2978 阅读 · 0 评论