ks 的计算很多时候能帮助我们更好的理解 该指标的深层次含义:
下图来自知乎 风控模型—区分度评估指标(KS)深入理解应用
上述计算过程中主要有两个点不是特别的清晰, cum_bad_rate 和 cum_good_rate
其中 cum_bad_rate 就是当前以及当前之前区间的累计的 bad 数量相加,除全部的 bad 样本数量,比如 (88+65) /342 = 44.74%, 相应的就是good的计算(在计算的时候我们是知道每个样本的true label的,所以召回,准确等四宫格里面的指标 都可以计算)
最后 观察分箱中最大的 ks 值即为最终的KS值,此时也可以确定最佳的分割阈值(相应的不同分箱以及分箱粒度会对最终的结果有影响)
AUC 和 KS 区别
因此对比AUC来看,两者虽然都可以用于衡量二分类任务的性能,但KS更倾向在某个具体阈值下的模型性能,因此在风险评级,评分卡等金融领域应用较多,但是AUC是根据ROC-Curve得到的指标,不对应具体的阈值,可以表征模型的整体的性能,但也能通过ROC-Curve得到最优分割阈值,因此在机器学习模型中更常用,因为不需要确定某一个具体的阈值(对于特定工业界场景有时候需要确定一个固定的阈值)。