使用逻辑回归制作信用卡评分卡

目录

一、摘要

二、数据集介绍

三、数据探索 

四、数据预处理

五、分箱处理

六、建模与评价​​​​​​​

一、摘要

  本文基于kaggle上Give Me Some Credit数据和菜菜的sklearn课堂的处理思路,结合信用卡评分构建原理,采用python语言完成。主要包括特征预处理、特征选择、数据分箱、将特征WOE值映射到数据中、使用逻辑回归进行建模和参数优化。

  ps:第一次写,请多指教。

二、数据集介绍

  数据集约15W条样本数据,各特征及标签含义如下:

特征/标签 含义
SeriousDlqin2yrs 0:好客户  1:坏客户
RevolvingUtilizationOfUnsecuredLines 贷款以及信用卡可用额度与总额度比例
age 借款人年龄
NumberOfTime30-59DaysPastDueNotWorse 两年内35-59天逾期次数
NumberOfTime60-89DaysPastDueNotWorse 两年内60-89天逾期次数
NumberOfTimes90DaysLate 两年内90天或高于90天逾期的次数
DebtRatio 负债比率
MonthlyIncome 借款人的月收入
NumberOfOpenCreditLinesAndLoans 开放式信贷和贷款数量
NumberRealEstateLoansOrLines 不动产贷款或额度数量
NumberOfDependents 借款人的家属数量(不包括本人在内

三、数据探索 

数据集共有150000行,其中MonthlyIncome和NumberOfDependents存在缺失值。 

3.1 查看标签

 结论:样本分布极其不均衡,稍后通过过采样方式处理。

3.2 查看缺失比例

 MonthlyIncome缺失较多,NumberOfDependents有部分缺失。

月收入缺失接近20%,这项指标作为借贷的重要参考缺失这么多很反常,应该及时和业务部门沟通。

假设1:因为月收入会影响借贷额,如果收入高自然借贷额高,没有理由不写。考虑是收入低的人群,为了能够借更多而故意隐瞒。如果是这样,就将缺失值都赋值为0处理。

假设2:数据录入异常,这个要结合业务处理。本案例无法结合业务,稍后可采用随机森林填补缺失值。

如果是假设1,那么应当是SeriousDlqin2yrs为1(坏客户)的客户更多,排除假设1,稍后按照假设2处理。

  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值