Datawhale 零基础入门数据挖掘-Task2 数据分析

最新推荐文章于 2023-09-16 15:41:44 发布

sunshare77

最新推荐文章于 2023-09-16 15:41:44 发布

阅读量422

点赞数

本文链接：https://blog.csdn.net/sunshare77/article/details/105069915

版权

二、 EDA-数据探索性分析

2.1 EDA目标

EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。
引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。

¶2.2 内容介绍

载入各种数据科学以及可视化库:
- 数据科学库 pandas、numpy、scipy；
- 可视化库 matplotlib、seabon；
- 其他；
载入数据：
- 载入训练集和测试集；
- 简略观察数据(head()+shape)；
数据总览:
- 通过describe()来熟悉数据的相关统计量
- 通过info()来熟悉数据类型
判断数据缺失和异常
- 查看每列的存在nan情况
- 异常值检测
了解预测值的分布
- 总体分布概况（无界约翰逊分布等）
- 查看skewness and kurtosis
- 查看预测值的具体频数
特征分为类别特征和数字特征，并对类别特征查看unique分布
数字特征分析
- 相关性分析
- 查看几个特征得偏度和峰值
- 每个数字特征得分布可视化
- 数字特征相互之间的关系可视化
- 多变量互相回归关系可视化
类型特征分析
- unique分布
- 类别特征箱形图可视化
- 类别特征的小提琴图可视化
- 类别特征的柱形图可视化类别
- 特征的每个类别频数可视化(count_plot)
用pandas_profiling生成数据报告

2.3 代码示例

2.3.1 载入各种数据科学以及可视化库

#coding:utf-8
#导入warnings包，利用过滤器来实现忽略警告语句。
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

其中关于missingno，由于每次处理数据时，缺失值是必须要考虑的问题。但是手工查看每个变量的缺失值是非常麻烦的一件事情。missingno提供了一个灵活且易于使用的缺失数据可视化和实用程序的小工具集，使您可以快速直观地总结数据集的完整性。首先安装程序包并加载：
pip install missingno
import missingno as msno
参考链接：https://blog.csdn.net/Andy_shenzl/article/details/81633356

2.3.2 载入数据

## 1) 载入训练集和测试集；
path = './datalab/231784/'
Train_data = pd.read_csv(path+'used_car_train_20200313.csv', sep=' ')
Test_data = pd.read_csv(path+'used_car_testA_20200313.csv', sep=' ')

如果是在jupyter里面，调用同一目录下的文件，应该怎么写呢？
Train_data = pd.read_csv('used_car_train_20200313.csv', sep=' ')

sep=' '：表示以空格分割

所有字段及其含义：

name - 汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
fuelType - 燃油类型
gearbox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepairedDamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13','v_14' 【匿名特征，包含v0-14在内15个匿名特征】


## 2) 简略观察数据(head()+shape)
Train_data.head().append(Train_data.tail())
Train_data.shape
Test_data.head().append(Test_data.tail())
Test_data.shape

其中， Head（）查看数据前5行；Tail（）查看数据后5行；Append（）数据追加。Test_data.shape：查看数据几行几列，对于监督学习中的训练集的列比验证集多一个，是标签列。

要养成看数据集的head()以及shape的习惯，这会让你每一步更放心，导致接下里的连串的错误, 如果对自己的pandas等操作不放心，建议执行一步看一下，这样会有效的方便你进行理解函数并进行操作。

2.3.3 总览数据概况

describe种有每列的统计量，个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 、以及最大值看这个信息主要是瞬间掌握数据的大概的范围以及每个值的异常值的判断，比如有的时候会发现999 9999 -1 等值这些其实都是nan的另外一种表达方式，有的时候需要注意下。
info 通过info来了解数据每列的type，有助于了解是否存在除了nan以外的特殊符号异常。

## 1) 通过describe()来熟悉数据的相关统计量
Train_data.describe()
Test_data.describe()
## 2) 通过info()来熟悉数据类型
Train_data.info()
Test_data.info()

Pandas中describe()主要分析数据的基本统计量，如：
count：一列的元素个数；
mean：一列数据的平均值；
std

最低0.47元/天解锁文章

sunshare77

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Datawhale 零基础入门数据挖掘-Task2 数据分析

二、 EDA-数据探索性分析2.1 EDA目标 EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。 ...
复制链接

扫一扫