python EDA_Python 探索性数据分析 EDA

最新推荐文章于 2024-02-18 07:45:00 发布

weixin_39631301

最新推荐文章于 2024-02-18 07:45:00 发布

阅读量325

点赞数

文章标签： python EDA python scipy.stats 分位数 python特征相关性热力图怎么画皮尔逊、肯德尔、斯皮尔曼相关分析分别是针对什么

在做数据建模或者是数据挖掘的过程中都需要对数据做一些探索性的分析，所谓的探索性数据分析主要是对数据的整体规模有一个大致了解，主要包括但不限于记录数、特征数、特征的数据类型、数据缺失情况、数据的整体分布情况（单变量的分布及多变量的分布）、数据的相关性情况等，下面分别从这几个方面介绍一下应用Python如何做EDA。

以泰坦尼克数据为样例进行探索性数据分析。

1、将数据导入到Python中

一般在Python中应用pandas库中的相应函数进行导入数据，这样导入的数据是一个DataFrame类型，方便后面的分析。

import

2、查看数据的行列数、数据类型、数值型数据分布情况

查看行列数（记录数及特征数）

可以看出本数据集中有891条记录12个特征。

查看数据类型

可以看出本数据集中有int64、float64和object三种类型的变量，从这个图中同样能够看出存在缺失值的字段，个数少于891个的特征都是存在缺失的。

查看数值型数据规模

图中只是展示了数值型变量规则及分布，主要展示了数量、均值、标准差、最小值、25%分位数、50%分位数、75%分位数和最大值等。

3、缺失值情况探查

缺失值情况探查主要是探查存在缺失值的字段及具体的缺失规模。

pandas库进行缺失探查

应用pandas库进行数据探查主要应用库中带的一些缺失值检测的函数，主要有isnull(),notnull()等。

从图中可以看出Age、Cabin和Embarked存在数据缺失，

missingno库进行缺失探查

missingno库主要用于对缺失值的展示，主要有三个函数missingno.bar()，missingno.matrix()，missingno.heatmap()，具体用户参见missingno官方。

图中白色的地方就是存在缺失值的地方，从图中可以看出Cabin字段存在大量的数据缺失。

4、数据整体分布情况分析

（1）单变量数据分析

a 、数值型数据分布情况

数值型数据分布最好以图的方式进行展示，这样能够直观形象的看出数据的整体分布情况。主要使用展示图有：直方图、箱线图、小提琴图等。

下面以Fare字段进行数据整体分布的展示

直方图展示数值型数据的分布情况

箱线图展示数值型数据的分布情况

小提琴图展示数值型数据的分布情况

b、分类型数据分布情况

分类型数据的分布情况探查主要是查看各个分类值出现的频次及趋势，可以直接应用pandas库中的value_counts()方法查看，同时也可以应用seaborn库中的图表进行查看。

value_counts方法

value_counts方法查看分类型数据的分布情况

seaborn方法

计数图查看分类型数据分布

（2）多变量数据分布情况分析

多变量的数据分布探查主要查看数据之间的相互关系，比较常用的就是seaborn中的pairplot方法。

pairplot多变量数据分布探查

5、数据相关性探查

数据相关性的探查一般都是通过查看皮尔逊相关系数确定数据之间是否存在相关性，但是这种相关性的确定有两个限制条件：1、只能确定数值型变量之间的关系；2、只能确定变量之间的是否线性相关。如果需要探查数据之间的是否存在非线性相关的时候就需要像斯皮尔曼相关系数等。

heatmap画相关系数热力图

注：本文只是简单的描述了一下初步数据探查的基本方法，后续还有很多地方需要不断完善的地方，比如异常值的检测、数值型变量与分类型变量的相关性分析等等，只有完全掌握了数据的整体分布才能继续后面的数据分析和挖掘工作。

本人能力有限，难免有错误或不足的地方，不吝赐教。

weixin_39631301

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python EDA_Python 探索性数据分析 EDA

在做数据建模或者是数据挖掘的过程中都需要对数据做一些探索性的分析，所谓的探索性数据分析主要是对数据的整体规模有一个大致了解，主要包括但不限于记录数、特征数、特征的数据类型、数据缺失情况、数据的整体分布情况（单变量的分布及多变量的分布）、数据的相关性情况等，下面分别从这几个方面介绍一下应用Python如何做EDA。以泰坦尼克数据为样例进行探索性数据分析。1、将数据导入到Python中一般在Pytho...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。