特征离散化(四) 之 bestKS分箱

特征离散化(四) 之 bestKS分箱

讲完了最小熵分箱,随便也提一下bestKS分箱吧。其实看懂了最小熵分箱,很容易就能理解bestKS分箱了。两个都是自顶向下的监督分箱方法,区别就在于确定划分点的指标不同。最小熵采用的是熵值,bestKS采用的KS值。

1. KS值

KS(Kolmogorov-Smirnov)用于评估模型区分风险的能力。描述的是数据中好坏样本累计部分之间的差距 。KS值越大,表示该变量的可区分度越高,越能将正,负样本区分开来。通常来说,KS>0.2即表示该特征有较好的准确率。这里的KS值是变量的KS值,而不是模型的KS值。

KS值的计算公式:
K S i = ∣ s u m i / s u m T − ( s i z e i − s u m i ) / ( s i z e T − s u m T ) ∣ KS_i = |sum_i / sum_T - (size_i - sum_i)/ (size_T - sum_T)| KSi=sumi/sumT

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值