PSI和KL散度及IV值

Mark_Aussie

已于 2022-06-17 17:16:26 修改

阅读量1k

点赞数

分类专栏：机器学习文章标签：机器学习数据分析

于 2021-03-23 16:14:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MarkAustralia/article/details/115128154

版权

机器学习专栏收录该内容

47 篇文章 5 订阅

订阅专栏

系统稳定通常指某项指标波动小（低方差），指标曲线几乎是一条水平的直线。此时系统运行正常稳定。

在数学上可用变异系数（Coefficient of Variation，CV）来衡量这种数据波动水平。变异系数越小，代表波动越小，稳定性越好。

变异系数的计算公式为：变异系数 C·V =（标准偏差 SD / 平均值Mean ）× 100%

在机器学习建模时假设“历史样本分布等于未来样本分布”。因此认为：

模型或变量稳定 <=> 未来样本分布与历史样本分布之间的偏差小。

实际中受到客群变化（互金市场用户群体变化快）、数据源采集变化（比如爬虫接口被风控了）等等因素影响，实际样本分布将会发生偏移，就会导致模型不稳定。

PSI反映了验证样本在各分数段的分布与建模样本分布的稳定性。

在建模中常用来筛选特征变量、评估模型稳定性。

稳定性是有参照的，因此需要有两个分布——实际分布（actual）和预期分布（expected）。

在建模时通常以训练样本（In the Sample, INS）作为预期分布，而验证样本通常作为实际分布。

与IV值计算公式很类似。

PSI数值越小，两个分布之间的差异就越小，代表越稳定。

当两个随机分布完全一样时，PSI = 0；反之，差异越大，PSI越大。

相对熵（relative entropy）又称Kullback-Leibler散度（Kullback-Leibler divergence）或信息散度（information divergence），

是两个概率分布间差异的非对称性度量——KL散度不满足对称性。

在信息理论中，相对熵等价于两个概率分布的信息熵（Shannon entropy）的差值；

KL散度是单向描述信息熵差异；KL散度不是距离，其不满足对称性和三角不等式。

PSI本质上是实际分布（A）与预期分布（E）的KL散度的一个对称化操作。

x 代表 X 的每一个取值，则

由公式可知，K-L散度其实是数据的分布 P 和分布 Q 之间的对数差值的期望，也表示 P 和 Q 间信息损失的二进制位数。

由上式变换：

前一部分就是 P（x）的熵，后一部分就是交叉熵

在深度学习中，需要使用K-L散度评估 labels 和 predicts 间的差距；

前一部分 -H(ylabels) 不变，故在优化过程中只需要关注交叉熵 CE 即可。一般在深度学习中直接用交叉熵做Loss，评估模型。也可以直接把交叉熵理解为判断两个分布相似性的依据，本文则进一步解释了交叉熵的由来，即交叉熵是由相对熵(K-L散度)衍生出来的。

参考：风控模型—群体稳定性指标(PSI)深入理解应用 - 知乎

【K-L散度(相对熵)】如何理解分割模型的损失函数_咖啡味儿的咖啡-CSDN博客

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
PSI和KL散度及IV值

PSI和KL散度及IV值
复制链接

扫一扫

专栏目录

Mark_Aussie CSDN认证博客专家 CSDN认证企业博客

码龄8年

220: 原创

13万+: 周排名

1万+: 总排名

39万+: 访问

: 等级

2672: 积分

169: 粉丝

271: 获赞

68: 评论

1325: 收藏

私信

关注

热门文章

分类专栏

Python 50篇
nlp 59篇
机器学习 47篇
AIOps 32篇
排序算法 9篇
C语言
JDK翻译 5篇
数据库 4篇

最新评论

Log BERT 日志异常检测
qq_45834721: 问一下大家有复现出论文里面提到的效果吗
Log BERT 日志异常检测
lym4a1: 这个本来就是没到语义那一级，你还在做这方面研究吗？你对参数异常这块有什么想法吗
LSTM理解及梯度消失与爆炸
CSDN-Ada助手: 百度的paddlepadle库做的不错，不知道是否用过呢？
算法知识小结
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
机器学习-逻辑回归总结
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性；(3)使用更多的站内链接。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。