pandas 数据分析 相关性_使用Pandas进行数据探索分析的最佳方式

本文介绍了如何使用Pandas Profiling库进行探索性数据分析(EDA),包括概述、变量统计、相互作用、相关性、缺失值检查和数据采样等关键步骤。该工具提供了一种简洁的方式来展示数据集的统计信息和可视化,简化了数据预处理的过程。
摘要由CSDN通过智能技术生成

原标题:使用Pandas进行数据探索分析的最佳方式

今日份知识你摄入了么?

Pandas配置文件报告相关性示例

介绍

概述

变量

相互作用

相关性

缺少值

取样

总结

引用

介绍

Python(和 R )中有很多执行探索性数据分析(EDA- exploratory data analysis)的方法。我在流行的Jupyter Notebook里完成了大部分工作。一旦我意识到有一个库,可以总结我的数据集只有一行代码,我确保利用它到每个项目,而且从这个EDA工具的易用性获得无数的好处。在为所有数据科学家执行机器学习模型之前,应先执行EDA 步骤,因此,来自 Pandas Profiling 的智能开发人员可以轻松地以美观的格式查看数据集,同时在你的数据集中很好地描述信息。

Pandas分析报告可作为一种出色的EDA工具提供以下优点: 概述、变量、交互作用、相关性、缺失值以及数据样本。我将使用随机生成的数据作为这个有用的工具的例子。

概述

概述示例

报表中的"概述"选项卡可快速查看你有多少变量和观测值,包括行数和列数。它还将执行计算,以查看与整个数据框列相比,缺少的单元格有多少。此外,它还将指出重复的行并计算该百分比。这个选项卡与 Pandas 的描述功能的一部分最相似,同时提供了更好的用户界面 (UI) 体验。

概述分为数据集统计信息和变量类型。你还可以参考警告和复制,以获取有关数据的更具体的特定信息。

我将讨论变量,这些变量也称为数据架构的列或特征。

变量

变量示例

如果要在描述性统计信息中实现更精确,“变量”选项卡是可以使用的。你可以查看数据框要素特征或变量的均值、最小值和最大值等不同、缺失、聚合或计算。你还可以查看你正使用的数据类型(即 NUM)。没有显示图片是当你点击"切换细节信息"。这个切换会提示大量更可用的统计数据。详细信息包括:

统计—量性和描述性

四分位数

Minimum

5thpercentile

Q1

Median

Q3

95thpercentile

Maximum

Range

Interquartilerange (IQR)

描述

Standarddeviation

Coefficientof variation (CV)

Kurtosis

Mean

MedianAbsolute Deviation (MAD)

Skewness

Sum

Variance

Monotonicity

这些统计信息也提供了和我所知的大多数数据科学家使用的函数类似的信息,但是,还有更多的信息,并且它呈现在一个易于查看的格式显示。

直方图

直方图提供了一个易于理解的变量视觉效果。你可以期望在x轴上的y轴和固定大小的bin(bins=15 是默认值)上可以看到变量的频率。

通用值

公用值将提供变量最常见的值、计数和频率。

极值

极值将提供数据帧的最小值和最大值中的值、计数和频率。

相互作用

交互示例

分析报表的交互功能是唯一的,因为你可以从列表中选择位于提供的x轴或y-xis上。例如,如上图所示,是变量A对变量A,这就是为什么你看到重叠的原因。你可以轻松地切换到其他变量或列,以实现不同的绘图和数据点的表示。

相关性

相关性示例

有时,如果你通过使用按行Python代码绘制作更奇幻精美或丰富多彩的关联图,可能会非常耗时。但是,通过使用这个相关图,你可以轻松地可视化数据中的变量之间的关系,这些变量也具有很好的色彩编码。 你可以显示四个主要绘图图表:

Pearson’s r

Spearman’s ρ

Kendall’s τ

Phik (φk)

你可能只使用这些相关方法之一,因此其他方法可能听起来令人困惑或无法使用。因此,相关图还附带了一个切换细节,用于详细显示你可以可视化的每个相关的含义-当你需要有关相关性的复习时,以及当你决定在分析使用哪个绘图之间时,这个功能确实很有帮助供你分析。

缺少值

缺少值示例

从上面的图中可以看到,报表工具还包括缺失值。你可以看到每个变量的缺失量,包括计数和矩阵。这是在使用数据执行任何模型之前,这是可视化数据的好方法。你最好希望看到上述绘图,这意味着你没有缺少的值。

样品

样品示例

示例类似于头和尾函数,它返回数据框的后几行或最后几行。在此示例中,你还可以看到第一行和最后一行。当我想要了解数据开始的位置和结束的位置时,我使用这个选项卡-我建议对数据进行排名或排序,以查看这个选项卡中更多好处,因为你可以看到数据的范围,并具有可视的表示形式。

总结

照片选取字Elena Loshina在《Unsplash》上的发表

我希望本文能为你的下一次探索性数据分析提供一些启发。作为一个数据科学家,可能会出现的让人不知所措的情况是压倒性的,而EDA经常被忘记或没有实践的模型构建。使用Pandas分析报告,你可以以最少的代码执行 EDA,同时提供有用的统计信息和进行可视化。这样,你就可以专注于数据科学和机器学习(模型过程)的有趣部分。

总之,关于Pandas分析报告的主要特点包括概述、变量、交互作用、相关性、缺失值和数据样本。

下面是我用于安装和导入库的代码,以及为示例生成一些虚拟数据的代码,最后是用于基于Pandas数据框生成Pandas分析报表的一行代码。

# install library

#!pip install pandas_profilingimport pandas_profiling

importpandas aspd

importnumpy asnp # create data

df = pd.DataFrame(np.random.randint( 0, 200,size=( 15, 6)), columns=list( 'ABCDEF')) # run your report!

df.profile_report # I did get an error and had to reinstall matplotlib to fix

感谢阅读!

原文作者:Matt Przybyla

翻译作者:陈奕霖Eilleen

美工编辑:过儿

校对审稿:Dongdong返回搜狐,查看更多

责任编辑:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值