EDA-数据探索性分析

最新推荐文章于 2020-09-24 20:07:30 发布

qq_44980515

最新推荐文章于 2020-09-24 20:07:30 发布

阅读量280

点赞数

文章标签：机器学习可视化 python 数据挖掘

本文链接：https://blog.csdn.net/qq_44980515/article/details/105034932

版权

自定义标题

- EDA简介

EDA简介

探索性数据分析（Exploratory Data Analysis）简称为EDA，是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。
EDA的主要工作包括：

形成假设，确定主题去探索。
处理“脏数据”
评估数据，确定数据大致表达了什么
初步分离除一些重要特征
确定可以用哪些模型

导入数据

import pandas as pd
from os import getcwd
import matplotlib.pyplot as plt
#导入数据
current_path=getcwd()
train_data =  pd.read_csv(current_path+"\\used_car_train_20200313.csv",sep=' ')
test_data = pd.read_csv(current_path+"\\used_car_testA_20200313.csv",sep=' ')

总览数据概况

#总览数据概况
print(train_data.head(),train_data.tail())#查看数据的头和尾
print(train_data.shape)#查看矩阵长度
print(train_data.describe())#查看每列的统计量和其它相关信息
print(train_data.isnull().sum())#数据缺失与异常检测

对NaN进行可视化

每次处理数据时，缺失值是必须要考虑的问题。

方法一 matplotlib 柱状图

#对于NaN进行可视化
missing = train_data.isnull().sum()
missing = missing[missing > 0]
#missing.sort_values()
missing.plot.bar()
plt.show()

NaN结果可视化

方法二 missingno

missingno提供了一个灵活且易于使用的缺失数据可视化和实用程序的小工具集，可以快速直观地总结数据集的完整性。

import pandas as pd
from os import getcwd
import missingno as msno
msno.matrix(train_data.sample(250))#无效矩阵的数据密集显示
msno.bar(test_data.sample(1000))
plt.show()

无效矩阵的数据密集显示
无效数据的柱状图显示
可以很直观的了解哪些列存在 “nan”, 并可以把nan的个数打印，主要的目的在于 nan存在的个数是否真的很大，如果很小一般选择填充，如果使用lgb等树模型可以直接空缺，让树自己去优化，但如果nan存在的过多、可以考虑删掉。

对缺失值进行处理

print(train_data.info())
print(train_data["notRepairedDamage"].value_counts)
train_data["notRepairedDamage"].replace("-",np.nan,inplace=True)
test_data["notRepairedDamage"].replace("-",np.nan,inplace=True)

查看缺失值监测
可以发现除了notRepairedDamage 为object类型其他都为数字。

对数据样本严重倾斜的特征进行处理

样本的偏斜问题，也叫数据集偏斜（unbalanced）指的是参与分类的两个类别（也可以指多个类别）样本数量差异很大。

#删除数据样本严重倾斜的特征，可根据train_data["seller"].value_counts()查看，实际上在第一步print(train_data.describe())时已经有所体现
del train_data["seller"]
del train_data["offerType"]
del test_data["seller"]
del test_data["offerType"]

了解预测值的分布

## 1) 总体分布概况（无界约翰逊分布等）
import scipy.stats as st
import seaborn as sns
y = Train_data['price']
plt.figure(1); plt.title('Johnson SU')
sns.distplot(y, kde=False, fit=st.johnsonsu)
plt.figure(2); plt.title('Normal')
sns.distplot(y, kde=False, fit=st.norm)
plt.figure(3); plt.title('Log Normal')
sns.distplot(y, kde=False, fit=st.lognorm)

qq_44980515

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
EDA-数据探索性分析

自定义标题EDA简介导入数据总览数据概况对NaN进行可视化方法一 matplotlib 柱状图方法二 missingnoEDA简介探索性数据分析（Exploratory Data Analysis）简称为EDA，是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。EDA的主要工作包括...
复制链接

扫一扫