评分卡模型变量筛选

最新推荐文章于 2024-07-08 17:14:13 发布

ZJJBFQ

最新推荐文章于 2024-07-08 17:14:13 发布

阅读量3.3k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/better_zhao/article/details/107883965

版权

评分卡模型中，变量筛选是提高模型效率和泛化能力的关键。本文探讨了基于预测能力的单变量筛选，如IV值、Stepwise、LASSO正则化，以及多变量分析，包括变量两两相关性和多重共线性分析。通过这些方法，可以剔除不相关特征，降低多重共线性影响，增加模型解释性。

摘要由CSDN通过智能技术生成

变量筛选

用户的属性很多，如果全部输入模型，时间开销太大，而且模型复杂度过高。也会导致模型泛化能力降低，需要提前剔除没有意义的变量。

挑选入模变量需要考虑很多因素，比如：变量的预测能力，变量之间的线性相关性，变量的简单性（容易生成和使用），变量的强壮性（不容易被绕过），变量在业务上的可解释性（被挑战时可以解释的通）等等。

其中最主要和最直接的衡量标准是变量的预测能力和变量的线性相关性。本文主要探讨基于变量预测能力的单变量筛选，变量两两相关性分析，变量的多重共线性分析。

变量筛选的目的和作用

（1）剔除和目标变量不太相关的特征
（2）消除多重共线性的影响
（3）增加解释性

变量筛选的方式

（1）变量挑选
（2）降低维度
注意：变量挑选这是降低维度的其中一种方式，降低维度最有名的是：主成分分析法（PCA），PCA只是降低维度，并没有剔除变量特征

变量挑选常用手段

 基于IV值的变量筛选
 基于LASSO正则化的变量筛选
 基于stepwise的变量筛选
 基于特征重要度的变量筛选：RF, GBDT，XGboost…

1.单变量筛选

单变量的筛选基于变量预测能力，常用方法：

1.1基于IV值的单变量筛选

① 用IV值检验有效性
IV值（信息价值(information value)），是目前评分卡模型中筛选变量最常用的指标之一。

自变量的IV值越大，表示自变量的预测能力越强。类似的指标还有信息增益、基尼(gini)系数等。常用判断标准如下：
在这里插入图片描述

变量第i个分箱的IV值计算公式如下：

最低0.47元/天解锁文章

关注

0
点赞
踩
29

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。