在DataFountain平台上的用户逾期行为预测竞赛项目。数据来源于某银行公布的网上公开数据集,为银行真实信贷用户信息,应用于信用逾期预测、信用卡评分等业务场景。
import pandas as pd
import numpy as np
data=pd.read_csv('C:/Users/luoyang/Desktop/信用卡逾期分析/train.csv',\
index_col='CUST_ID',iterator=True)
#csv文件接近500M,全部读入内存不够,iterator参数允许我们读取前N行。
df=data.get_chunk(30000)
#实际上应该设置chunksize参数,然后使用for循环依次训练模式,可以减小内存损耗
没有缺失数据。
发现只有int、float64、object三种
将object列的名称添加入n中,然后查询object列中所有的字段。
清洗数据,将表达的N,Y,X分别赋值为0,1,2.
查看一下分类的比例,发现真逾期人员的比例占比为6%左右
X=df.drop(columns='个贷是否逾期').values
y=df.values[:,3