ks 的计算很多时候能帮助我们更好的理解 该指标的深层次含义:
下图来自知乎 风控模型—区分度评估指标(KS)深入理解应用
上述计算过程中主要有两个点不是特别的清晰, cum_bad_rate 和 cum_good_rate
其中 cum_bad_rate 就是当前以及当前之前区间的累计的 bad 数量相加,除全部的 bad 样本数量,比如 (88+65) /342 = 44.74%, 相应的就是good的计算(在计算的时候我们是知道每个样本的true label的,所以召回,准确等四宫格里面的指标 都可以计算)
最后 观察分箱中最大的 ks 值即为最终的KS值,此时也可以确定最佳的分割阈值(相应的不同分箱以及分箱粒度会对最终的结果有影响)