PSI和KL散度及IV值

系统稳定通常指某项指标波动小(低方差),指标曲线几乎是一条水平的直线。此时系统运行正常稳定。

在数学上可用变异系数(Coefficient of Variation,CV来衡量这种数据波动水平。变异系数越小,代表波动越小,稳定性越好。

变异系数的计算公式为:变异系数 C·V =( 标准偏差 SD / 平均值Mean )× 100%

在机器学习建模时假设“历史样本分布等于未来样本分布”。因此认为:

模型或变量稳定 <=> 未来样本分布与历史样本分布之间的偏差小。

实际中受到客群变化(互金市场用户群体变化快)、数据源采集变化(比如爬虫接口被风控了)等等因素影响,实际样本分布将会发生偏移,就会导致模型不稳定。

PSI反映了验证样本在各分数段的分布与建模样本分布的稳定性。

在建模中常用来筛选特征变量、评估模型稳定性

稳定性是有参照的,因此需要有两个分布——实际分布(actual)和预期分布(expected)。

在建模时通常以训练样本(In the Sample, INS)作为预期分布,而验证样本通常作为实际分布。

与IV值计算公式很类似。

PSI数值越小,两个分布之间的差异就越小,代表越稳定。

当两个随机分布完全一样时,PSI = 0;反之,差异越大,PSI越大。

相对熵(relative entropy)又称Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),

是两个概率分布间差异的非对称性度量——KL散度不满足对称性。

在信息理论中,相对熵等价于两个概率分布的信息熵(Shannon entropy)的差值;

KL散度是单向描述信息熵差异;KL散度不是距离,其不满足对称性和三角不等式。

PSI本质上是实际分布(A)与预期分布(E)的KL散度的一个对称化操作

x 代表 X 的每一个取值,则

由公式可知,K-L散度其实是数据的分布 P 和分布 Q 之间的对数差值的期望,也表示 P 和 Q 间信息损失的二进制位数。

由上式变换:

前一部分就是 P(x)的熵,后一部分就是交叉熵

在深度学习中,需要使用K-L散度评估 labels 和 predicts 间的差距 ;

前一部分 -H(ylabels) 不变,故在优化过程中只需要关注交叉熵 CE 即可。一般在深度学习中直接用交叉熵做Loss,评估模型。也可以直接把交叉熵理解为判断两个分布相似性的依据,本文则进一步解释了交叉熵的由来,即交叉熵是由相对熵(K-L散度)衍生出来的。

参考:风控模型—群体稳定性指标(PSI)深入理解应用 - 知乎

【K-L散度(相对熵)】如何理解分割模型的损失函数_咖啡味儿的咖啡-CSDN博客

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值