评分卡模型变量筛选

评分卡模型中,变量筛选是提高模型效率和泛化能力的关键。本文探讨了基于预测能力的单变量筛选,如IV值、Stepwise、LASSO正则化,以及多变量分析,包括变量两两相关性和多重共线性分析。通过这些方法,可以剔除不相关特征,降低多重共线性影响,增加模型解释性。
摘要由CSDN通过智能技术生成

变量筛选

用户的属性很多,如果全部输入模型,时间开销太大,而且模型复杂度过高。也会导致模型泛化能力降低,需要提前剔除没有意义的变量。

挑选入模变量需要考虑很多因素,比如:变量的预测能力,变量之间的线性相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。

其中最主要和最直接的衡量标准是变量的预测能力变量的线性相关性。本文主要探讨基于变量预测能力的单变量筛选,变量两两相关性分析,变量的多重共线性分析。

变量筛选的目的和作用

(1)剔除和目标变量不太相关的特征
(2)消除多重共线性的影响
(3)增加解释性

变量筛选的方式

(1)变量挑选
(2)降低维度
注意:变量挑选这是降低维度的其中一种方式,降低维度最有名的是:主成分分析法(PCA),PCA只是降低维度,并没有剔除变量特征

变量挑选常用手段

 基于IV值的变量筛选
 基于LASSO正则化的变量筛选
 基于stepwise的变量筛选
 基于特征重要度的变量筛选:RF, GBDT,XGboost…

1.单变量筛选

单变量的筛选基于变量预测能力,常用方法:

1.1基于IV值的单变量筛选

① 用IV值检验有效性
IV值(信息价值(information value)),是目前评分卡模型中筛选变量最常用的指标之一。

自变量的IV值越大,表示自变量的预测能力越强。类似的指标还有信息增益、基尼(gini)系数等。常用判断标准如下:
在这里插入图片描述

变量第i个分箱的IV值计算公式如下:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值