模型效果主要从两个方面衡量:
1.模型本身的效果,主要评价指标包括区分度、准确度等。
2.模型稳定性,主要评价指标包括PSI和CSI等。
之前阐述了模型本身的评价指标:混淆矩阵、F1值、KS曲线、count_table和ROC曲线AUC面积,本文介绍模型稳定性指标PSI。
一、详细介绍PSI
1 什么是PSI
PSI(Population Stability Index):群体稳定性指标,是通过对比历史样本分布和当前样本分布的波动,来衡量数据的稳定性。通常包括特征PSI和模型PSI。特征PSI关注特征的取值是否随时间推移发生大的波动,可用于模型训练和上线前特征选择、变量监控等。模型PSI关注训练集和验证集,以及模型上线部署后,模型的分布是否稳定。
为什么要关注模型的稳定性?
在风控建模中的IV和WOE一文中我们提到,可以用逻辑回归区分好坏客户的前提假设是“历史样本和未来样本服从同一总体分布”。模型通过从过去的数据中学习样本的分布特征,从而可以对现在的数据进行处理,判别出客户未来变坏的可能性。训练集和测试集源自同一时间段的样本分布,而验证集的分布与训练集并非总是一致的。而且,在模型训练过程中,虽然有测试集衡量模型的稳定性,但仍不能排除模型存在过拟合的情况。比如模型在产品运营过程中由于外界环境的变化(疫情)、业务背景的变化(政策发布、市场异常波动等)、模型的假设以及样本的处理手段,多少会使得建模样本与实际样本分布发生一定程度的偏移。这些原因都可能导致