评分卡笔记
1.评分卡流程
评分卡的流程主要是以下的几个步骤:
1. 数据预处理 观察数据处理数据中的缺失值与异常值
2. 卡方数据分箱 分箱完成后将原始数据的值替换成woe的值
3. 特征选择 将特征中相关性强的特征组合 相关系数高的 去除掉IV值小的那一个特征
4. 特征选择完毕后,重构数据集 并划分为训练集与测试集
5. 训练逻辑回归模型 最后得出权重与截距
6. 设置基础分值 倍率 计算分数
7. 模型评估
2.WOE 与IV
2.1 woe与IV值的基本概念计算
WOE——weight of evidence 证据的权重
woe的值在分箱之后进行计算,假设good为好客户 bad为坏客户则分箱完成后的每个箱子的woe值的计算公式如下图所示
woe的结果为在这个箱子中好客户的数量除以总的好客户的数量 除以在这个箱子中坏客户的数量除以总的坏客户的数量 即好客户的占比除以坏客户的占比
PS: 在我们代码中分箱完成后的结果中的woe值为坏/好的值 因此需要将其取负值 (在ln 函数前加负号即可将坏/好 变为 好/坏)
woe反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异;从而可以直观的认为woe蕴含了自变量取值对于目标变量(违约概率)的影响
bins = sc.woebin(df1, y="label", method='chimerge', min_perc_coarse_bin=0.05,stop_limit=0.1,special_values=[-999],breaks_list =breaks_list )
sc.woebin_plot(bins)
# 将 原始数据替换为woe的值
w