特征工程 | 信息价值IV与群体稳定性PSI

jdmike

已于 2023-02-13 19:32:15 修改

阅读量1.2k

点赞数

分类专栏：机器学习大数据文章标签：数据分析数据挖掘人工智能

于 2022-03-27 21:15:47 首次发布

本文链接：https://blog.csdn.net/RichardsZ_/article/details/123777141

版权

机器学习同时被 2 个专栏收录

34 篇文章 4 订阅

订阅专栏

大数据

3 篇文章 0 订阅

订阅专栏

特征工程 | 信息价值IV与群体稳定性PSI

关键词：特征筛选，信息量，稳定性
在这里插入图片描述

文章目录

特征工程 | 信息价值IV与群体稳定性PSI
前言
一、信息价值IV
二、群体稳定性PSI
三、总结
四、代码附录

前言

基于IV与PSI的筛选方法主要应用于“金融风控”场景，该场景下，稳定性压倒一切，一套模型正式上线后往往很久才迭代一次。因此对于特征工程层面，提出了信息量足够且稳定性高的要求。

IV与PSI结合，可快速从特征集合中筛选出同时具备“信息量充足且时间稳定性强”的特征，用于后续模型训练。

优点：

特别适合以随时间周期变化而表现敏感的业务场景，如金融风控，电销推荐，用户增长等；
可解释性强

一、信息价值IV

信息价值(Information Value)，用来表示特征对目标预测的贡献程度，即特征的预测能力，一般来说，IV值越高，该特征的预测能力越强，信息贡献程度越高。

1.1 使用条件

IV值的计算有基础的限定条件：

模型为有监督学习
二分类场景
连续型特征必须分箱处理

1.2 评价基准

取值	含义
IV<0.02	无用特征
0.02<IV<0.1	弱价值特征
0.1<IV<0.3	中价值特征
0.3<IV<0.5	强价值特征
IV>0.5	价值过高，不真实

1.3 计算原理

首先，IV的计算是建立在WOE值的基础之上

a. WOE计算

定义：Weight Of Evidence，证据权重，表示描述一个可预测的变量与二分类变量之间的关系。
通俗定义：对每一特征下的每种取值，统计该取值下的正负样本数量与该特征下的正负样本数量之间的关系
计算公式
$WOE_i=ln(\frac{Neg_i}{Neg_T}/\frac{Pos_i}{Pos_T})=ln(\frac{Neg_i}{Neg_T})-ln(\frac{Pos_i}{Pos_T})$

        其中:
        T代表某一特征，i为该特征下的某一取值。对于连续型特征而言，i为该特征下的某一分箱结果；
        Neg: 负样本, Pos:正样本；

公式原理：
WOE是基于每一特征下的每种取值进行计算的（对于数值型特征，需要进行分箱处理），对于该特征下的每个取值，分别计算该取值下的pos_cnt（正样本数量），neg_cnt（负样本数量），分别除以该特征下全量数据中的正样本数量（total_pos_cnt）和负样本总数（total_neg_cnt）。因此，就能得到该特征下每个取值内的边际正样本占比（margin_good_rate）和边际负样本占比（margin_bad_rate）。
通俗理解：
WOE表示的是该特征当前取值中，“负样本数量占该特征下所有负样本数量的比例”，与“正样本数量占该特征下所有正样本中的比例”。如果差异越大，那么该取值能够分辨负样本的可能性就越大；当差异越小时，该分箱响应的坏人的可能性就越小。
常见问题
– 分箱数量，决定了平滑程度，保证每个分箱不少于5%的样本数，一般来说10箱即可。
– 分箱种没有响应样本或全部为响应样本，即WOE计算过程中由于分子为0或分母为0，导致结果异常。可以考虑在公式中加入修正项
$WOE_i=ln(\frac{Neg_i+0.001}{Neg_T}/\frac{Pos_i+0.001}{Pos_T})$
WOE的缺点
只考虑了每个分箱的绝对风险，但没有考虑每个分箱样本占该特征下全样本的比例，缺失了各分箱样本在全样本中的相对关系。因此引出了IV值来评估每个分箱的相对贡献。

b. IV计算

上一小节提到了WOE编码存在缺点 -> 只考虑了每个分箱的相对风险，但没有考虑每个分箱样本数量占全样本的比例。因此，IV值在WOE计算的基础上，加入了每个分箱的响应比例, 补充了每个分箱在该特征下全样本的相对贡献，贡献越低，则这个分箱对特征整体预测能力的贡献越低。

定义： $\Sigma^n_i(负样本占比-正样本占比)*WOE_i$
计算方式：
$IV_i=(\frac{Neg_i}{Neg_T}-\frac{Pos_i}{Pos_T})*WOE_i=(\frac{Neg_i}{Neg_T}-\frac{Pos_i}{Pos_T})*ln(\frac{Neg_i}{Neg_T}/\frac{Pos_i}{Pos_T})$
$IV=\Sigma^n_iIV_i$
通俗理解：IV值的计算是对WOE值的加权和, 在 $W OE$ 基础上量化了每一取值在正负差异占比上的相对关系。

关注“人工智能与推荐算法”公众号获取更便捷的知识库！
在这里插入图片描述

二、群体稳定性PSI

模型是以训练集和测试集的指导下构建的，此模型是否适用于训练集与测试集之外的集群，必须经过稳定性测试才能得知。群体稳定性(population stability index)可用于衡量特征在时间分布上的稳定性。

2.1 使用条件

IV值的计算有基础的限定条件：

模型为有监督学习
二分类场景
连续型特征必须分箱处理

2.2 评价基准

PSI值的计算有基础的限定条件：

模型为有监督学习
二分类场景
连续型特征必须分箱处理

PSI范围	稳定性
0~0.1	好
0.1~0.25	略不稳定
>0.25	不稳定

2.2 计算原理

$psi=\Sigma(A-E)*ln(A/E)$

与IV值计算公式框架一致，都是 $\Sigma(A-E)*ln(A/E)$ ，不同的是参与计算的两个指标不同。

其中：

IV参与计算的是一份数据中特征取值正负样本占比， $A=\frac{neg_{i}}{neg_{t}}$ , $E=\frac{pos_{i}}{pos_{t}}$ ，

PSI参与计算的是特征取值在两份数据上的占比, $A=\frac{cnt_{i}}{cnt_{test}}$ , $E=\frac{cnt_{i}}{cnt_{train}}$

通俗定义：通过统计该特征下所有取值在"不同数据集上的占比"，衡量某特征在不同数据集下分布的稳定性；
PSI的缺点:
– psi的计算只考虑到某特征的某取值在当前集合下（A或E）的数量分布，并没有直接建立数量分布->正样本率的端到端的关系。
– 存在这样一种情况，某特征A在时间区分的两份数据集上，特征数量分布表现稳定，但特征映射到标签的正样本率上发生了重大变化。通过psi是无法捕捉这层信息的。

2.3 PSI的改良版：

改良版思路以个人角度触发，仅供参考

$A=\frac{pos_{i}}{pos_{test}}$ ， $E=\frac{pos_{i}}{pos_{train}}$ ；

用正样本率的占比，替代原公式的数量占比；

在这里插入图片描述

2.3 延展思考

psi的计算涉及(A-E)和ln(A/E)，本质上都表达了两个集合之间的正样本率的差异，不同的是，一个采取减法(A-E),另一个则采取了对数减法lnA-lnE。由于对数的存在，天然放大了分布的差异，那么是否可以将(A-E)替代lnA-lnE，调整为 $psi=(A-E)^2$ 呢？这里欢迎各位学者沟通交流，笔者就不做发表了。

三、总结

WOE：对每一特征下的每种取值，统计该取值下的正负样本数量与该特征下的正负样本数量之间的关系
IV: 在WOE计算的基础上，加入了每种取值（分箱）的响应比例, 补充了每种取值在该特征下全样本的相对贡献。
PSI：通过统计该特征下所有取值在"不同数据集上的正样本率之差与之商"，衡量该特征在不同数据集下的稳定性；
PSI改良版：通过标准化成单率，解决了不同数据集天然存在相对关系不一致的问题；通过对index加权，解决了同一特征下不同取值的相对关系。

四、代码附录

待补充

jdmike

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
特征工程 | 信息价值IV与群体稳定性PSI

特征工程 | 信息价值IV与群体稳定性PSI关键词：特征筛选，信息量，稳定性文章目录特征工程 | 信息价值IV与群体稳定性PSI前言一、信息价值IV1.1 使用条件1.2 评价基准1.3 计算原理a. WOE计算b. IV计算二、群体稳定性PSI2.1 使用条件2.2 评价基准2.2 计算原理三、总结四、代码附录前言    基于IV与PSI的筛选方法主要应用于“金融风控”场景，该场景下，稳定性压倒一切，一套模型正式上线后往往很久才迭代一次。因此对于特征工
复制链接

扫一扫

专栏目录