psi原理

本文介绍了Population Stability Index(PSI)的概念,它是用于评估模型稳定性的指标。通过实例解释了稳定性,并探讨了对数ln的基础。接着详细推导了PSI公式中的KL散度和信息熵,解析了公式中使用对数的原因,以及信息熵和交叉熵在衡量事件差异中的作用。
摘要由CSDN通过智能技术生成

Part 1. 稳定性的直观理解

在日常生活中,我们可能会看到每月电表、水表数值的变化。直观理解上的系统稳定,通常是指某项指标波动小,指标曲线几乎是一条水平的直线。此时,我们就会觉得系统运行正常稳定,很有安全感。
那么在风控中我们也有群体稳定性指标(Population Stability Index,PSI)来展示模型的稳定性。如PSI反映了验证样本在各分数段的分布与建模样本分布的稳定性。
那么,PSI的计算逻辑是怎样的呢?稳定性是有参照的,因此需要有两个分布——实际分布(actual)和预期分布(expected)。其中,在建模时通常以训练样本(In the Sample, INS)作为预期分布,而验证样本通常作为实际分布。

PSI的计算公式:
                PSI = SUM( (实际占比 - 预期占比)* ln(实际占比 / 预期占比) )
简单写就是——PSI=(A-B)* ln(A/B)

Part 2. 对数ln理解

在推导psi公式之前我们先来了解一下什么是对数ln。
一个直观的解释是:对数指的是到达某一数量所需要的时间。这里先介绍自然对数。即以e为底的对数。
那么e是什么?
在这里插入图片描述
当x趋近于无穷大,非常非常大的时候, ( 1 + 1 / x ) x (1+1/x)^x 1+1/xx值无限接近2.71828,于是给了一个自然常数定义e。
再来了解一个概念,连续复利公式,假设数量为A的一项投资,以年百分比利率r投资了n年,如果每年计算一次复利的话,投资总值为 A ∗ ( 1 + r ) n A*(1+r)^n A

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值