数据分析之信用风险评分卡建立

最新推荐文章于 2023-05-26 11:34:40 发布

Qin.er

最新推荐文章于 2023-05-26 11:34:40 发布

阅读量5.3k

点赞数 6

分类专栏： R-logistic 文章标签：数据分析 R语言逻辑回归 smbinning 信用风险和评分卡模型

本文链接：https://blog.csdn.net/weixin_41933558/article/details/80786477

版权

R-logistic 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

项目需求：现某金融公司想要通过建立信用风险评分卡对客户进行判断，是否发放贷款

项目描述：数据来源 kaggle 数据量 4 万条，原始字段数 33 个

项目目的：使用机器学习构建信用卡评分模型，对新样本做出预测
环境和工具： Rstudio， prettyR， smbinning
流程：
1.数据探索：完全缺失字段，以及二分类变量正类缺失的字段进行删除，对异常值采取盖帽
法进行替换
2 对变量进行分箱操作。使用 smbinning 包中的函数，通过决策树进行最优分箱，得到每
个变量的分箱结果，以及对应的 IV 值和 WOE 值。
3 通过 IV 值大于 0.02 的部分，筛选变量（性别，年龄，婚姻，区编号，是否有家庭电话，
工作年限，收入共 7 个变量），并通过 smbinning.gen 和 smbinning.factor.gen 函数生成
新的变量并生成新的数据表。变量值为分箱后对应的 WOE 值，数据模型进行建模
4 采用 Logistic(逻辑回归)进行学习建模，对输出结果通过 smbinning.scaling 进行打分，
生成评分卡
5．通过评分卡对原数据客户进行打分，基本判断，好坏客户的分数取值分布情况。其次通
过 smbinning.metrics()输出结果，得到评分卡的分数最优阈值为 546， AUC 值为 0.66，
并不是很好，准确率（precision）达 87.6%
6 最后通过评分卡，使用 excel 表格，运用 vlookup 函数，对新的客户进行匹配打分
模型使用 Rstudiuo 进行搭建。使用包： base,subning,prettyR, 使用函数： glm subning
subning.factor subning.gen subning.factor.gen sunbning..plot
开始：

首先导入需要使用得包：

1 数据工程：
数据探索阶段，发现数据中有部门字段内容全部缺失，以及部分二分类变量只有 1 个有值，
故这两种情况无法参加建模，将其找出删除。同时识别出哪些字段是因子型，哪些是数值型，

方便后面分箱使用不同得函数，其中数值型字段用：smbinning 因子型使用：smbinning.factor

异常值处理：通过箱线图判断是否存在异常值，使用盖帽法，用 99 分位点值代替极大异常

值，有 1 分位点值代替极小异常值的方法

由于 smbining 函数中得打分是 1 是信用高得客户，故这里将目标变量得 0 和 1 值互换

变量分箱：使用 smbinning 函数，运用回归决策树最优分箱，从而使得类之间的相异性尽
可能大（由于变量较多，这里不一一列举，拿两个字段举例），其中连续变量使用得函数为：
smbinning 因子变量： smbinning.factor
连续型变量举例：首先用箱图查看数据分布情况，若分布区别不明显，可以使用 T 检验（数

值变量对分类变量得影响），有显著性再进行分箱，否则无意义

年龄属性得分布情况如上图，通过 T 检验， P<0.05,表明原假设被拒绝，认为属性对目标变
量有显著影响，可以进行分箱
Smbnning 对年龄得分箱结果，是通过回归树进行最有分箱，由树图可知：划分点为： 19，
22， 32， 37， 46， 59 六个点，分为 7 个区间属性，同时获取响应区间 WOE 值以及总得 IV

值。