这一部分主要是针对样本数据的EDA检查,这里做一个通用的框架来介绍整个数据EDA的流程。
一、导入数据
#导入csv数据集
train_data = pd.read_csv('train.csv',encoding='gbk')
test_data = pd.read_csv('testA.csv',encoding='gbk')
二、查看数据
#查看前十条数据
train_data.head(5)
#查看数据形状
print(train_data.shape)
print(test_data.shape)
#对数据进行处理,对每列缺失数据加和
print ('data dataset ({} rows) null value:\n'.format(train_data.shape[0]))
print (train_data.isnull().sum(axis = 0))
对缺失值进行可视化
##缺失值列可视化
plt.figure(figsize=(12,4))
missing=train_data.isnull().sum()/len(train_data