信用卡逾期项目初探（数据清洗与特征选择）

最新推荐文章于 2023-04-06 17:19:58 发布

啥都不懂的菇凉

最新推荐文章于 2023-04-06 17:19:58 发布

阅读量1.2k

点赞数 2

文章标签：数据分析 python 机器学习

本文链接：https://blog.csdn.net/weixin_42957905/article/details/106193602

版权

信用卡项目初探（数据清洗与特征选择）

摘要由CSDN通过智能技术生成

信用卡逾期项目初探（数据清洗与特征选择）

之前对机器学习还是很憧憬的，但感觉理论部分着实感觉吃力，现在开始慢慢啃这块骨头。

首先，我从网上获取到了相关数据，先进行数据说明吧。

背景描述
该数据集为台湾客户的拖欠付款情况。

数据说明
数据有30000行（观察值）和24列（1个label，23个特征）

X1：给定信用额度（新台币）：既包括个人消费者信用额度，又包括其家庭（补充）信用额度。
X2：性别（1 =男性； 2 =女性）。
X3：教育（1 =研究生院； 2 =大学； 3 =高中； 4 =其他）。
X4：婚姻状况（1 =已婚； 2 =单身； 3 =其他）。
X5：年龄（年）。
X6-X11：过去的付款历史。我们跟踪了过去的每月付款记录（从2005年4月到2005年9月）：
X6 = 2005年9月的还款状态； 
X7 = 2005年8月的还款状态；....;X11 = 2005年4月的还款状态。

还款状态的度量标准为：-1 =定期付款； 1 =付款延迟一个月； 2 =付款延迟两个月；...; 8 =付款延迟八个月； 9 =付款延迟9个月以上。PAY_0到PAY_6中出现的-2,-1,0都应该被视为按时还款。

X12-X17：账单金额（新台币）。 X12 = 2005年9月的帐单金额； X13 = 2005年8月的帐单金额;..; X17 = 2005年4月的帐单金额。

X18-X23：以前的付款金额（新台币）。 X18 = 2005年9月支付的金额； X19 = 2005年8月支付的金额;..; X23 = 2005年4月支付的金额。

default payment next month：违约1，守约0

一开始拿到这么多的数据，可能大家会有点懵，不知道如何下手，我自己总结了几点：

第一，拿到数据先进行异常值和空值分析

第二，将异常值和空值解决后，进行标签和特征的可视化分析，探索其关系

第三，选取相关特征，并进行接下来的预测分析。

我们慢慢来，而且要大胆尝试自己写代码，多运行，