EDA-数据探索性分析

EDA简介

探索性数据分析(Exploratory Data Analysis)简称为EDA,是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。
EDA的主要工作包括:

  • 形成假设,确定主题去探索。
  • 处理“脏数据”
  • 评估数据,确定数据大致表达了什么
  • 初步分离除一些重要特征
  • 确定可以用哪些模型
导入数据
import pandas as pd
from os import getcwd
import matplotlib.pyplot as plt
#导入数据
current_path=getcwd()
train_data =  pd.read_csv(current_path+"\\used_car_train_20200313.csv",sep=' ')
test_data = pd.read_csv(current_path+"\\used_car_testA_20200313.csv",sep=' ')
总览数据概况
#总览数据概况
print(train_data.head(),train_data.tail())#查看数据的头和尾
print(train_data.shape)#查看矩阵长度
print(train_data.describe())#查看每列的统计量和其它相关信息
print(train_data.isnull().sum())#数据缺失与异常检测
对NaN进行可视化

每次处理数据时,缺失值是必须要考虑的问题。

方法一 matplotlib 柱状图
#对于NaN进行可视化
missing = train_data.isnull().sum()
missing = missing[missing > 0]
#missing.sort_values()
missing.plot.bar()
plt.show()

NaN结果可视化

方法二 missingno

missingno提供了一个灵活且易于使用的缺失数据可视化和实用程序的小工具集,可以快速直观地总结数据集的完整性。

import pandas as pd
from os import getcwd
import missingno as msno
msno.matrix(train_data.sample(250))#无效矩阵的数据密集显示
msno.bar(test_data.sample(1000))
plt.show()

无效矩阵的数据密集显示
无效数据的柱状图显示
可以很直观的了解哪些列存在 “nan”, 并可以把nan的个数打印,主要的目的在于 nan存在的个数是否真的很大,如果很小一般选择填充,如果使用lgb等树模型可以直接空缺,让树自己去优化,但如果nan存在的过多、可以考虑删掉。

对缺失值进行处理
print(train_data.info())
print(train_data["notRepairedDamage"].value_counts)
train_data["notRepairedDamage"].replace("-",np.nan,inplace=True)
test_data["notRepairedDamage"].replace("-",np.nan,inplace=True)

查看缺失值监测
可以发现除了notRepairedDamage 为object类型其他都为数字。

对数据样本严重倾斜的特征进行处理

样本的偏斜问题,也叫数据集偏斜(unbalanced)指的是参与分类的两个类别(也可以指多个类别)样本数量差异很大。

#删除数据样本严重倾斜的特征,可根据train_data["seller"].value_counts()查看,实际上在第一步print(train_data.describe())时已经有所体现
del train_data["seller"]
del train_data["offerType"]
del test_data["seller"]
del test_data["offerType"]
了解预测值的分布
## 1) 总体分布概况(无界约翰逊分布等)
import scipy.stats as st
import seaborn as sns
y = Train_data['price']
plt.figure(1); plt.title('Johnson SU')
sns.distplot(y, kde=False, fit=st.johnsonsu)
plt.figure(2); plt.title('Normal')
sns.distplot(y, kde=False, fit=st.norm)
plt.figure(3); plt.title('Log Normal')
sns.distplot(y, kde=False, fit=st.lognorm)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值