分箱介绍及举例详解

分箱介绍

       前面提到过,我们要制作评分卡,是要给各个特征进行分档,以便业务人员能够根据新客户填写的信息为客户打 分。因此在评分卡制作过程中,一个重要的步骤就是分箱。可以说,分箱是评分卡最难,也是最核心的思路,分箱 的本质,其实就是离散化连续变量,好让拥有不同属性的人被分成不同的类别(打上不同的分数),其实本质比较类似于聚类。那我们在分箱中要回答几个问题:
       每个特征要分多少个箱子

       既然是将连续型变量离散化,想也知道箱子个数必然不能太多,最好控制在十个以下。 而用来制作评分卡,最好能在4~5个为最佳。我们知道,离散化连续变量必然伴随着信息的损失,并且箱子越少, 信息损失越大。为了衡量特征上的信息量以及特征对预测函数的贡献,银行业定义了概念Information value(IV):
I V = ∑ i = 1 n ( ( g o o d % ) i − ( b a d % ) i ) ∗ W O E i IV = \sum_{i=1}^n ((good\%)_i-(bad\%)_i) *WOE_i IV=i=1n((good%)i(bad%)i)WOEi

       i代表箱子, ( g o o d % ) i (good\%)_i (good%)i是该箱子中优质客户占所有优质客户的比例, ( b a d % ) i (bad\%)_i (bad%)i是该箱子中劣质客户占所有劣质客户的比列。
W O E i WOE_i WOEi定义如下:
W O E i = l n ( g o o d % ) i ( b a d % ) i WOE_i=ln\frac{(good\%)_i}{(bad\%)_i} WOEi=

  • 1
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值