机器学习sklearn-逻辑回归制作评分卡

最新推荐文章于 2024-07-05 08:54:27 发布

kongqing23

最新推荐文章于 2024-07-05 08:54:27 发布

阅读量1.2k

点赞数 1

文章标签：机器学习 sklearn 逻辑回归

本文链接：https://blog.csdn.net/kongqing23/article/details/122520368

版权

这篇博客介绍了如何利用sklearn进行机器学习，重点是逻辑回归。首先，作者导入并处理数据，包括去除重复值、填补缺失值、处理易操作特征。接着，将数据划分为训练集和测试集。最后，通过卡方检验确定了分箱策略，以创建评分卡。

摘要由CSDN通过智能技术生成

1 导入数据查看相关信息

2 数据预处理

2.1 去重复值+更新索引

删除重复数据以后，索引依然是原来的数值，一定要记得更新为删除完重复数据之后的样本数量。

2.2 填补缺失值

查看缺失值比例

针对于该数据，我们需要填充的是月收入和家属人数。

家属人数缺失很少，仅缺失了大约2.5% ，可以考虑直接删除，或者使用均值来填补。 “ 收入 ” 缺失了几乎 20% ，并且我们知道， “ 收入 ” 必然是一个对信用评分来说很重要的因素，因此这个特征必须要进行填补。

对于月收入的缺失，一个来借钱的人应该是会知道， “ 高收入” 或者 “ 稳定收入 ” 于他 / 她自己而言会是申请贷款过程中的一个助力，因此如果收入稳定良好的人，肯定会倾向于写上自己的收入情况，那么这些“ 收入 ” 栏缺失的人，更可能是收入状况不稳定或收入比较低的人。基于这种判断，我们可以用比如说，四分位数来填补缺失值，把所有收入为空的客户都当成是低收入人群。当然了，也有可能这些缺失是银行数据收集过程中的失误，我们并无法判断为什么收入栏会有缺失，所以我们的推断也有可能是不正确的。具体采用什么样的手段填补缺失值，要和业务人员去沟通，观察缺失值是如何产生的。在这里，我们使用随机森林填补收入。

对于一个有 n 个特征的数据来说，其中特征 T 有缺失值，我们就把特征 T 当作标签，其他的n-1 个特征和原本的标签组成新的特征矩阵。那对于 T 来说，它没有缺失的部分，就是我们的Y_train，这部分数据既有标签也有特征，而它缺失的部分，只有特征没有标签，就是我们需要预测的部分。

特征 T 不缺失的值对应的其他 n-1 个特征 + 本来的标签： X_train 特征 T 不缺失的值： Y_train 特征 T 缺失的值对应的其他n-1 个特征 + 本来的标签： X_test 特征 T

最低0.47元/天解锁文章

kongqing23

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习sklearn-逻辑回归制作评分卡

目录1 导入数据查看相关信息2 数据预处理2.1 去重复值+更新索引2.2 填补缺失值2.3 处理易操作2.4 划分训练集和测试集并保存3 分箱1 导入数据查看相关信息2 数据预处理2.1 去重复值+更新索引删除重复数据以后，索引依然是原来的数值，一定要记得更新为删除完重复数据之后的样本数量。2.2 填补缺失值查看缺失值比例针对于该数据，我们需要填充的是月收入和家属人数。家属人数缺失很少，仅缺失了大约2.5%，可以考虑直接删
复制链接

扫一扫