内容:
这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否会逾期。表格中 “status” 是结果标签:0表示未逾期,1表示逾期。
要求:
数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018
任务1:对数据进行探索和分析。时间:2天
数据类型的分析
无关特征删除
数据类型转换
缺失值处理
……以及你能想到和借鉴的数据分析处理
处理:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
#数据读取
data = pd.read_csv('data/data_task1.csv',encoding='gbk')
data.head()
#数据筛选
data.drop(['custid','trade_no','bank_card_no','id_name'],axis=1,inplace=True)
#数据拆分
Y = data['status']
X = data.drop(['status'],axis=1)
X_train,X_test,y_train,y_test = train_test_split(X,Y,test_size = 0.3,random_state=2018)