模型稳定性指标—PSI

阿黎逸阳

已于 2023-08-13 21:40:07 修改

阅读量2.9k

点赞数 1

分类专栏：风控建模原理与实现风控建模文章标签： python 建模

于 2023-04-08 16:11:40 首次发布

本文链接：https://blog.csdn.net/qq_32532663/article/details/130030403

版权

风控建模原理与实现同时被 2 个专栏收录

79 篇文章 18 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

风控建模

21 篇文章 9 订阅

订阅专栏

本文详细介绍了模型稳定性指标PSI，包括其概念、计算公式和阈值衡量标准。PSI用于评估历史样本与当前样本分布的波动，以判断数据稳定性。同时，文章提供了Python计算PSI的实例，帮助读者理解和应用PSI。

摘要由CSDN通过智能技术生成

模型效果主要从两个方面衡量：

1.模型本身的效果，主要评价指标包括区分度、准确度等。

2.模型稳定性，主要评价指标包括PSI和CSI等。

之前阐述了模型本身的评价指标：混淆矩阵、F1值、KS曲线、count_table和ROC曲线AUC面积，本文介绍模型稳定性指标PSI。

文章目录

一、详细介绍PSI

1 什么是PSI

PSI(Population Stability Index)：群体稳定性指标，是通过对比历史样本分布和当前样本分布的波动，来衡量数据的稳定性。通常包括特征PSI和模型PSI。特征PSI关注特征的取值是否随时间推移发生大的波动，可用于模型训练和上线前特征选择、变量监控等。模型PSI关注训练集和验证集，以及模型上线部署后，模型的分布是否稳定。

为什么要关注模型的稳定性？

在风控建模中的IV和WOE一文中我们提到，可以用逻辑回归区分好坏客户的前提假设是“历史样本和未来样本服从同一总体分布”。模型通过从过去的数据中学习样本的分布特征，从而可以对现在的数据进行处理，判别出客户未来变坏的可能性。训练集和测试集源自同一时间段的样本分布，而验证集的分布与训练集并非总是一致的。而且，在模型训练过程中，虽然有测试集衡量模型的稳定性，但仍不能排除模型存在过拟合的情况。比如模型在产品运营过程中由于外界环境的变化（疫情）、业务背景的变化（政策发布、市场异常波动等）、模型的假设以及样本的处理手段，多少会使得建模样本与实际样本分布发生一定程度的偏移。这些原因都可能导致