申请评分卡模型数据预处理(二)

最新推荐文章于 2023-07-03 21:12:38 发布

ZJJBFQ

最新推荐文章于 2023-07-03 21:12:38 发布

阅读量861

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/better_zhao/article/details/107844554

版权

变量筛选

用户的属性有千千万万个维度，而评分卡模型所选用的字段在30个以下，那么怎样挑选这些字段呢？

挑选入模变量需要考虑很多因素，比如：变量的预测能力，变量之间的线性相关性，变量的简单性（容易生成和使用），变量的强壮性（不容易被绕过），变量在业务上的可解释性（被挑战时可以解释的通）等等。

其中最主要和最直接的衡量标准是变量的预测能力和变量的线性相关性。

本文主要探讨基于变量预测能力的单变量筛选，变量两两相关性分析，变量的多重共线性分析。

1.单变量筛选

单变量的筛选基于变量预测能力，常用方法：
基于IV值的变量筛选
基于stepwise的变量筛选
基于特征重要度的变量筛选：RF, GBDT…
基于LASSO正则化的变量筛选

1.1基于单变量的IV值筛选

① 用IV值检验有效性
IV值（信息价值(information value)），是目前评分卡模型中筛选变量最常用的指标之一。

自变量的IV值越大，表示自变量的预测能力越强。类似的指标还有信息增益、基尼(gini)系数等。常用判断标准如下：

在这里插入图片描述

变量第i个分箱的IV值计算公式如下：

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
申请评分卡模型数据预处理(二)

变量筛选用户的属性有千千万万个维度，而评分卡模型所选用的字段在30个以下，那么怎样挑选这些字段呢？挑选入模变量需要考虑很多因素，比如：变量的预测能力，变量之间的线性相关性，变量的简单性（容易生成和使用），变量的强壮性（不容易被绕过），变量在业务上的可解释性（被挑战时可以解释的通）等等。其中最主要和最直接的衡量标准是变量的预测能力和变量的线性相关性。本文主要探讨基于变量预测能力的单变量筛选，变量两两相关性分析，变量的多重共线性分析。1.单变量筛选单变量的筛选基于变量预测能力，常用方法：基于IV值
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。