信用卡逾期项目初探(数据清洗与特征选择)
之前对机器学习还是很憧憬的,但感觉理论部分着实感觉吃力,现在开始慢慢啃这块骨头。
首先,我从网上获取到了相关数据,先进行数据说明吧。
背景描述
该数据集为台湾客户的拖欠付款情况。
数据说明
数据有30000行(观察值)和24列(1个label,23个特征)
X1:给定信用额度(新台币):既包括个人消费者信用额度,又包括其家庭(补充)信用额度。
X2:性别(1 =男性; 2 =女性)。
X3:教育(1 =研究生院; 2 =大学; 3 =高中; 4 =其他)。
X4:婚姻状况(1 =已婚; 2 =单身; 3 =其他)。
X5:年龄(年)。
X6-X11:过去的付款历史。我们跟踪了过去的每月付款记录(从2005年4月到2005年9月):
X6 = 2005年9月的还款状态;
X7 = 2005年8月的还款状态;....;X11 = 2005年4月的还款状态。
还款状态的度量标准为:-1 =定期付款; 1 =付款延迟一个月; 2 =付款延迟两个月;...; 8 =付款延迟八个月; 9 =付款延迟9个月以上。PAY_0到PAY_6中出现的-2,-1,0都应该被视为按时还款。
X12-X17:账单金额(新台币)。 X12 = 2005年9月的帐单金额; X13 = 2005年8月的帐单金额;..; X17 = 2005年4月的帐单金额。
X18-X23:以前的付款金额(新台币)。 X18 = 2005年9月支付的金额; X19 = 2005年8月支付的金额;..; X23 = 2005年4月支付的金额。
default payment next month:违约1,守约0
一开始拿到这么多的数据,可能大家会有点懵,不知道如何下手,我自己总结了几点:
第一,拿到数据先进行异常值和空值分析
第二,将异常值和空值解决后,进行标签和特征的可视化分析,探索其关系
第三,选取相关特征,并进行接下来的预测分析。
我们慢慢来,而且要大胆尝试自己写代码,多运行,