这4款数据自动化探索 Python 神器,解决99%的数据分析问题!

来源:Python学习与数据挖掘

探索性数据分析是一种非常重要的数据探索技术,用于了解数据的各个方面,这是执行任何机器学习或深度学习任务之前最重要的步骤之一。

探索性数据分析可以帮助识别明显的错误,区分数据集中的异常,发现重要元素,发现内部信息的设计并提供新的知识。17bc42af0b8e3a3a73c11ef402d808a9.png

背景

在任何机器学习项目的生命周期中,我们在数据分析、特征选择、特征工程等环节耗费时间占整个项目的 60% 的以上,一方面它是数据科学项目中最重要的部分,另一方面它是必须要进行的,比如清理数据、处理缺失值、处理异常值、处理不平衡的数据集、等等,高效完成数据探索任务势在必行。

自动化探索性数据分析

今天我给大家分享4款自动化探索数据分析的顶级 Python 库,列表如下:

  • dtale

  • pandas profiling

  • sweetviz

  • autoviz

1、D-tale

3aa621749fd343b5237fde6a985a792b.pngD-tale 是一个在 2020 年 2 月推出的库,可让我们轻松可视化 pandas 数据框。它具有许多功能,对于探索性数据分析非常方便、支持交互式绘图、3d 绘图、热图、特征之间的相关性、构建自定义列等等。

安装

pip install dtale

首先,我们分享一个 d-tale 的案例

import dtale
import pandas as pd
df = pd.read_csv("data.csv")
d = dtale.show(df)
d.open_browser()

上述代码的输出如下所示:2d1f5fadf29bb5adcad3cb4dde58dd91.png它提供许多选项,例如对数据进行排序、描述数据集、列分析等等,也可以自行查看此功能。5038cd4fea4a487d58c254df0f954807.png如果单击"Describe",则会显示所选列的统计分析,例如平均值、中位数、最大值、最小值方差、标准差、四分位数等等。2c595ccdbb50fee1ad59039784dcb28d.png也可以自行尝试其他功能,例如列分析、格式、过滤器。4e37a7127e78c440235f2515dbf57c05.png如何相互关联呢?730651cd151f37b85021105aae9a63c3.png图表 - 建立自定义图表,如折线图、条形图、饼图、堆叠图、散点图、地质图等。30c690cb57a4e84cae403f64dc1ce56e.png这个工具非常方便,与使用传统的机器学习库(如 pandas、matplotlib 等)相比,它探索性数据分析更快。

2、Pandas Profiling

c46fc6e8b13c6d3d74e2f70ef21577f6.png它是一个用 python 编写的开源库,生成交互式 HTML 报告并描述数据集的各个方面。关键功能包括处理缺失值、数据集的统计数据(如平均值、众数、中位数、偏度、标准差等),以及直方图和相关性等图表。

安装

pip install pandas-profiling

让我们深入研究使用这个库的探索性数据分析。使用示例数据集从 pandas 分析开始:

#importing required packages
import pandas as pd
import pandas_profiling
import numpy as np

#importing the data
df = pd.read_csv('sample.csv')

#descriptive statistics
pandas_profiling.ProfileReport(df)

下面是上述代码输出598d586db9f327a360a477668fb8a317.png

这是一个数据分析报告,它返回数据集中的变量数量、行数、数据集中缺失的单元格、缺失单元格的百分比、重复行的数量和百分比。缺失和重复的单元格数据对于我们的分析非常重要,因为它描述了数据集的更广泛情况。该报告还显示内存的总大小。

变量部分显示特定列的分析。例如对于分类变量,将出现以下输出339e23a573b6592335ed44d2730aa1c7.png42ce08c30fa8a23c258fbeb51e777413.png它提供对数值变量的深入分析,例如分位数、均值、中位数和、方差、单调性、范围、峰度、四分位间距等等。

描述变量如何相互关联,这些数据对于数据科学家来说是非常必要的。d4f1014ddefefff1cd910e84ca1d9cfd.png

3、Sweetviz

Sweetviz 是一个开源的 Python 库,用于获得可视化效果,只需几行代码即可用于探索性数据分析。该库可用于可视化变量和比较数据集。bc5b777d0cbc1f1cfb05e060bacd7d9a.png

安装

pip install sweetviz

让我们深入研究使用这个库的探索性数据分析,使用示例数据集开始

import sweetviz
import pandas as pd
df = pd.read_csv('sample.csv')
my_report  = sweetviz.analyze([df,'Train'], target_feat='SalePrice')
my_report.show_html('FinalReport.html')
d9563b74ad830b199807cc8ab39e2b0e.png
4、Autoviz

Autoviz 代表自动可视化,只需几行代码,就可以使用任意大小的数据集进行可视化。5ea68c8cd308c42c466aeda35898943f.png安装

pip install autoviz

可视化

from autoviz.AutoViz_Class import AutoViz_Class
AV = AutoViz_Class()
df = AV.AutoViz('sample.csv')

b660b1d8c84614a258c30ba743248b42.pngb215f319742547d98862a8d9188ce7be.png48d7df8e6cffc4b02f3f1f1d8d2888e9.png

-------- End --------
精选资料回复关键词,获取对应的资料:
关键词资料名称600《Python知识手册》md《Markdown速查表》time《Python时间使用指南》str《Python字符串速查表》pip《Python:Pip速查表》style《Pandas表格样式配置指南》mat《Matplotlib入门100个案例》px《Plotly Express可视化指南》精选内容数据科学: VS Code 中 Python配置使用指南 | 财经工具 Tushare | Matplotlib 最有价值的 50 个图表
书籍阅读: 如何阅读一本书 | 巴菲特之道 | 价值 | 原则 | 投资最重要的事 | 戴维斯王朝 | 客户的游艇在哪里 | 刻意练习 | 林肯传 | 金字塔原理
投资小结: 2021Q4 | 2021Q3 | 2021Q2 | 2021Q1 | 2020Q4
精选视频可视化: Plotly Express
财经: Plotly在投资领域的应用 | 绘制K线图表
排序算法: 汇总 | 冒泡排序 | 选择排序 | 快速排序 | 归并排序 | 堆排序 | 插入排序 | 希尔排序 | 计数排序 | 桶排序 | 基数排序
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值