Part 1. 稳定性的直观理解
在日常生活中,我们可能会看到每月电表、水表数值的变化。直观理解上的系统稳定,通常是指某项指标波动小,指标曲线几乎是一条水平的直线。此时,我们就会觉得系统运行正常稳定,很有安全感。
那么在风控中我们也有群体稳定性指标(Population Stability Index,PSI)来展示模型的稳定性。如PSI反映了验证样本在各分数段的分布与建模样本分布的稳定性。
那么,PSI的计算逻辑是怎样的呢?稳定性是有参照的,因此需要有两个分布——实际分布(actual)和预期分布(expected)。其中,在建模时通常以训练样本(In the Sample, INS)作为预期分布,而验证样本通常作为实际分布。
PSI的计算公式:
PSI = SUM( (实际占比 - 预期占比)* ln(实际占比 / 预期占比) )
简单写就是——PSI=(A-B)* ln(A/B)
Part 2. 对数ln理解
在推导psi公式之前我们先来了解一下什么是对数ln。
一个直观的解释是:对数指的是到达某一数量所需要的时间。这里先介绍自然对数。即以e为底的对数。
那么e是什么?
当x趋近于无穷大,非常非常大的时候, ( 1 + 1 / x ) x (1+1/x)^x (1+1/x)x值无限接近2.71828,于是给了一个自然常数定义e。
再来了解一个概念,连续复利公式,假设数量为A的一项投资,以年百分比利率r投资了n年,如果每年计算一次复利的话,投资总值为 A ∗ ( 1 + r ) n A*(1+r)^n A