分箱介绍
前面提到过,我们要制作评分卡,是要给各个特征进行分档,以便业务人员能够根据新客户填写的信息为客户打 分。因此在评分卡制作过程中,一个重要的步骤就是分箱。可以说,分箱是评分卡最难,也是最核心的思路,分箱 的本质,其实就是离散化连续变量,好让拥有不同属性的人被分成不同的类别(打上不同的分数),其实本质比较类似于聚类。那我们在分箱中要回答几个问题:
每个特征要分多少个箱子
:
既然是将连续型变量离散化,想也知道箱子个数必然不能太多,最好控制在十个以下。 而用来制作评分卡,最好能在4~5个为最佳。我们知道,离散化连续变量必然伴随着信息的损失,并且箱子越少, 信息损失越大。为了衡量特征上的信息量以及特征对预测函数的贡献,银行业定义了概念Information value(IV):
I V = ∑ i = 1 n ( ( g o o d % ) i − ( b a d % ) i ) ∗ W O E i IV = \sum_{i=1}^n ((good\%)_i-(bad\%)_i) *WOE_i IV=i=1∑n((good%)i−(bad%)i)∗WOEi
i代表箱子, ( g o o d % ) i (good\%)_i (good%)i是该箱子中优质客户占所有优质客户的比例, ( b a d % ) i (bad\%)_i (bad%)i是该箱子中劣质客户占所有劣质客户的比列。
W O E i WOE_i WOEi定义如下:
W O E i = l n ( g o o d % ) i ( b a d % ) i WOE_i=ln\frac{(good\%)_i}{(bad\%)_i} WOEi=