EDA简介
探索性数据分析(Exploratory Data Analysis)简称为EDA,是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。
EDA的主要工作包括:
- 形成假设,确定主题去探索。
- 处理“脏数据”
- 评估数据,确定数据大致表达了什么
- 初步分离除一些重要特征
- 确定可以用哪些模型
导入数据
import pandas as pd
from os import getcwd
import matplotlib.pyplot as plt
#导入数据
current_path=getcwd()
train_data = pd.read_csv(current_path+"\\used_car_train_20200313.csv",sep=' ')
test_data = pd.read_csv(current_path+"\\used_car_testA_20200313.csv",sep=' ')
总览数据概况
#总览数据概况
print(train_data.head(),train_data.tail())#查看数据的头和尾
print(train_data.shape)#查看矩阵长度
print(train_data.describe())#查看每列的统计量和其它相关信息
print(train_data.isnull().sum())#数据缺失与异常检测
对NaN进行可视化
每次处理数据时,缺失值是必须要考虑的问题。
方法一 matplotlib 柱状图
#对于NaN进行可视化
missing = train_data.isnull().sum()
missing = missing[missing > 0]
#missing.sort_values()
missing.plot.bar()
plt.show()
方法二 missingno
missingno提供了一个灵活且易于使用的缺失数据可视化和实用程序的小工具集,可以快速直观地总结数据集的完整性。
import pandas as pd
from os import getcwd
import missingno as msno
msno.matrix(train_data.sample(250))#无效矩阵的数据密集显示
msno.bar(test_data.sample(1000))
plt.show()
可以很直观的了解哪些列存在 “nan”, 并可以把nan的个数打印,主要的目的在于 nan存在的个数是否真的很大,如果很小一般选择填充,如果使用lgb等树模型可以直接空缺,让树自己去优化,但如果nan存在的过多、可以考虑删掉。
对缺失值进行处理
print(train_data.info())
print(train_data["notRepairedDamage"].value_counts)
train_data["notRepairedDamage"].replace("-",np.nan,inplace=True)
test_data["notRepairedDamage"].replace("-",np.nan,inplace=True)
可以发现除了notRepairedDamage 为object类型其他都为数字。
对数据样本严重倾斜的特征进行处理
样本的偏斜问题,也叫数据集偏斜(unbalanced)指的是参与分类的两个类别(也可以指多个类别)样本数量差异很大。
#删除数据样本严重倾斜的特征,可根据train_data["seller"].value_counts()查看,实际上在第一步print(train_data.describe())时已经有所体现
del train_data["seller"]
del train_data["offerType"]
del test_data["seller"]
del test_data["offerType"]
了解预测值的分布
## 1) 总体分布概况(无界约翰逊分布等)
import scipy.stats as st
import seaborn as sns
y = Train_data['price']
plt.figure(1); plt.title('Johnson SU')
sns.distplot(y, kde=False, fit=st.johnsonsu)
plt.figure(2); plt.title('Normal')
sns.distplot(y, kde=False, fit=st.norm)
plt.figure(3); plt.title('Log Normal')
sns.distplot(y, kde=False, fit=st.lognorm)