打卡-Task2:数据的探索性分析(EDA)
载入数据库
pandas和numpy作为数据科学库导入,matplotlib和seaborn作为可视化的库导入
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
载入数据
sep=’ ’以’ '为数据分隔符读取
path = 'C:/Users/61499/Desktop/二手车交易/'
Train_data_load = open(path+'used_car_train_20200313.csv')
Test_data_load = open(path+'used_car_testA_20200313.csv')
Train_data = pd.read_csv(Train_data_load,sep=' ')
Test_data = pd.read_csv(Test_data_load,sep=' ')
数据查看
Train_data.head().append(Train_data.tail())
Train_data.shape
Test_data.head().append(Train_data.tail())
Test_data.shape
常用的pandas数据查看函数:
train.head(5) #显示前5行数据
train.tail(5) #显示后5行
train.columns #查看列名
train.info() #查看各字段的信息
train.shape #查看数据集行列分布,几行几列
总览数据概况
使用describe总览数据概况
describe种有每列的统计量,个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 、以及最大值 看这个信息主要是瞬间掌握数据的大概的范围以及每个值的异常值的判断,比如有的时候会发现999 9999 -1 等值这些其实都是nan的另外一种表达方式,有的时候需要注意下。
Train_data.describe()
Test_data.describe()
使用info()查看数据类型和缺失值
info 通过info来了解数据每列的type,有助于了解是否存在除了nan以外的特殊符号异常
Train_data.info()
Test_data.info(