使用逻辑回归制作信用卡评分卡

breeze199511

已于 2022-07-30 09:26:33 修改

阅读量1.1k

点赞数

文章标签：数据挖掘人工智能机器学习逻辑回归

于 2022-05-20 14:57:13 首次发布

本文链接：https://blog.csdn.net/breeze199511/article/details/124554708

版权

本文基于kaggle上Give Me Some Credit数据和菜菜的sklearn课堂的处理思路，结合信用卡评分构建原理，采用python语言完成。主要包括特征预处理、特征选择、数据分箱、将特征WOE值映射到数据中、使用逻辑回归进行建模和参数优化。

ps：第一次写，请多指教。

数据集约15W条样本数据，各特征及标签含义如下：

特征/标签	含义
SeriousDlqin2yrs	0:好客户 1:坏客户
RevolvingUtilizationOfUnsecuredLines	贷款以及信用卡可用额度与总额度比例
age	借款人年龄
NumberOfTime30-59DaysPastDueNotWorse	两年内35-59天逾期次数
NumberOfTime60-89DaysPastDueNotWorse	两年内60-89天逾期次数
NumberOfTimes90DaysLate	两年内90天或高于90天逾期的次数
DebtRatio	负债比率
MonthlyIncome	借款人的月收入
NumberOfOpenCreditLinesAndLoans	开放式信贷和贷款数量
NumberRealEstateLoansOrLines	不动产贷款或额度数量
NumberOfDependents	借款人的家属数量（不包括本人在内

数据集共有150000行，其中MonthlyIncome和NumberOfDependents存在缺失值。

结论：样本分布极其不均衡，稍后通过过采样方式处理。

MonthlyIncome缺失较多，NumberOfDependents有部分缺失。

月收入缺失接近20%，这项指标作为借贷的重要参考缺失这么多很反常，应该及时和业务部门沟通。

假设1:因为月收入会影响借贷额，如果收入高自然借贷额高，没有理由不写。考虑是收入低的人群，为了能够借更多而故意隐瞒。如果是这样，就将缺失值都赋值为0处理。

假设2:数据录入异常，这个要结合业务处理。本案例无法结合业务，稍后可采用随机森林填补缺失值。

如果是假设1，那么应当是SeriousDlqin2yrs为1（坏客户）的客户更多，排除假设1，稍后按照假设2处理。

关注