机器学习sklearn-逻辑回归制作评分卡

这篇博客介绍了如何利用sklearn进行机器学习,重点是逻辑回归。首先,作者导入并处理数据,包括去除重复值、填补缺失值、处理易操作特征。接着,将数据划分为训练集和测试集。最后,通过卡方检验确定了分箱策略,以创建评分卡。
摘要由CSDN通过智能技术生成

目录

1 导入数据查看相关信息

​​2 数据预处理

2.1 去重复值+更新索引

2.2 填补缺失值

2.3 处理易操作

2.4 划分训练集和测试集并保存

3 分箱


1 导入数据查看相关信息

2 数据预处理

2.1 去重复值+更新索引

删除重复数据以后,索引依然是原来的数值,一定要记得更新为删除完重复数据之后的样本数量。

2.2 填补缺失值

查看缺失值比例

针对于该数据,我们需要填充的是月收入和家属人数。

家属人数缺失很少,仅缺失了大约2.5% ,可以考虑直接删除,或者使用均值来填补。 收入 缺失了几乎 20% ,并且我们知道, 收入 必然是一个对信用评分来说很重要的因素,因此这个特征必须要进行填补。
对于月收入的缺失,一个来借钱的人应该是会知道, 高收入” 或者 稳定收入 于他 / 她自己而言会是申请贷款过程中的一个助力,因此如果收入稳定良好的人,肯定会倾向于写上自己的收入情况,那么这些“ 收入 栏缺失的人,更可能是收入状况不稳定或收入比较低的人。基于这种判断,我们可以用比如说,四分位数来填补缺失值,把所有收入为空的客户都当成是低收入人群。当然了,也有可能这些缺失是银行数据收集过程中的失误,我们并无法判断为什么收入栏会有缺失,所以我们的推断也有可能是不正确的。具体采用什么样的手段填补缺失值,要和业务人员去沟通,观察缺失值是如何产生的。在这里,我们使用随机森林填补 收入。
对于一个有 n 个特征的数据来说,其中特征 T 有缺失值,我们就把特征 T 当作标签,其他的n-1 个特征和原本的标签组成新的特征矩阵。那对于 T 来说,它没有缺失的部分,就是我们的Y_train,这部分数据既有标签也有特征,而它缺失的部分,只有特征没有标签,就是我们需要预测的部分。
特征 T 不缺失的值对应的其他 n-1 个特征 + 本来的标签: X_train 特征 T 不缺失的值: Y_train 特征 T 缺失的值对应的其他n-1 个特征 + 本来的标签: X_test 特征 T
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值