信用评分卡模型建立总结

本文总结了信用评分卡的构建过程,包括评分卡流程、WOE与IV的计算和作用,特征选择,模型训练(使用逻辑回归),分值计算方法及模型评估指标KS值。重点解释了IV值用于衡量变量预测能力的原因,强调了样本数量比例对预测能力的影响。
摘要由CSDN通过智能技术生成

评分卡笔记

1.评分卡流程

评分卡的流程主要是以下的几个步骤:

                                  1. 数据预处理 观察数据处理数据中的缺失值与异常值
                                  2. 卡方数据分箱 分箱完成后将原始数据的值替换成woe的值
                                  3. 特征选择 将特征中相关性强的特征组合 相关系数高的 去除掉IV值小的那一个特征
                                  4. 特征选择完毕后,重构数据集 并划分为训练集与测试集
                                  5. 训练逻辑回归模型 最后得出权重与截距
                                  6. 设置基础分值 倍率 计算分数
                                  7. 模型评估

2.WOE 与IV

2.1 woe与IV值的基本概念计算

WOE——weight of evidence 证据的权重

woe的值在分箱之后进行计算,假设good为好客户 bad为坏客户则分箱完成后的每个箱子的woe值的计算公式如下图所示

woe的结果为在这个箱子中好客户的数量除以总的好客户的数量 除以在这个箱子中坏客户的数量除以总的坏客户的数量 即好客户的占比除以坏客户的占比 
PS: 在我们代码中分箱完成后的结果中的woe值为坏/好的值 因此需要将其取负值 (在ln 函数前加负号即可将坏/好 变为 好/坏)
woe反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异;从而可以直观的认为woe蕴含了自变量取值对于目标变量(违约概率)的影响

在这里插入图片描述

bins = sc.woebin(df1, y="label", method='chimerge', min_perc_coarse_bin=0.05,stop_limit=0.1,special_values=[-999],breaks_list =breaks_list )
sc.woebin_plot(bins)
# 将 原始数据替换为woe的值
w
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值