数据挖掘 task1

最新推荐文章于 2020-03-24 22:36:43 发布

mangoAHA

最新推荐文章于 2020-03-24 22:36:43 发布

阅读量99

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/liangqiuyizhuce/article/details/90216507

版权

数据挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

内容：

这份数据集是金融数据（非原始数据，已经处理过了），我们要做的是预测贷款用户是否会逾期。表格中 “status” 是结果标签：0表示未逾期，1表示逾期。

要求：

数据切分方式 - 三七分，其中测试集30%，训练集70%，随机种子设置为2018
任务1：对数据进行探索和分析。时间：2天
数据类型的分析
无关特征删除
数据类型转换
缺失值处理
……以及你能想到和借鉴的数据分析处理

处理：

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
#数据读取
data = pd.read_csv('data/data_task1.csv',encoding='gbk')
data.head()
#数据筛选
data.drop(['custid','trade_no','bank_card_no','id_name'],axis=1,inplace=True)
#数据拆分
Y = data['status']
X = data.drop(['status'],axis=1)
X_train,X_test,y_train,y_test = train_test_split(X,Y,test_size = 0.3,random_state=2018)