这6个探索性数据分析工具，太实用了！

最新推荐文章于 2024-05-04 19:16:13 发布

Python数据挖掘

最新推荐文章于 2024-05-04 19:16:13 发布

阅读量1.2k

点赞数 24

分类专栏：数据分析及可视化机器学习文章标签：数据分析数据挖掘 python 时间序列算法

本文链接：https://blog.csdn.net/qq_34160248/article/details/135178810

版权

机器学习同时被 2 个专栏收录

152 篇文章 84 订阅

订阅专栏

数据分析及可视化

80 篇文章 8 订阅

订阅专栏

当进行数据分析时，探索性数据分析(EDA)是一个至关重要的阶段，它能帮助我们从数据中发现模式、趋势和异常现象。而选择合适的EDA工具又能够极大地提高工作效率和分析深度。在本文中，笔者将介绍6个极其实用的探索性数据分析(EDA)工具，这些工具能够帮助您更好地理解数据、发现隐藏的信息，并为后续分析和决策提供有力支持。让我们一起来看看这些工具是如何帮助我们探索数据世界的吧！

技术交流

技术要学会交流、分享，不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

好的文章离不开粉丝的分享、推荐，资料干货、资料分享、数据、技术交流提升，均可加交流群获取，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。

技术交流、代码、数据获取方式如下

方式①、添加微信号：dkl88194，备注：资料
方式②、微信搜索公众号：Python学习与数据挖掘，后台回复：资料

资料1
在这里插入图片描述
资料2

我们打造了《100个超强算法模型》，特点：从0到1轻松学习，原理、代码、案例应有尽有，所有的算法模型都是按照这样的节奏进行表述，所以是一套完完整整的案例库。

很多初学者是有这么一个痛点，就是案例，案例的完整性直接影响同学的兴致。因此，我整理了 100个最常见的算法模型，在你的学习路上助推一把！

在这里插入图片描述

1. SweetViz

SweetViz是一个开源的 Python 库，可以通过仅两行代码生成美观且高密度的可视化图表，以便快速进行探索性数据分析（EDA）。其输出是一个完全独立的HTML应用程序。

其设计初衷是快速可视化目标数值并比较数据集，帮助快速分析目标特征、训练数据与测试数据之间的差异，以及数据集的结构、特征之间的关系、数据的分布情况等，从而加速数据分析的过程。

下面是一个简单的示例，演示如何使用SweetViz 进行数据探索性分析：

import pandas as pd
import sweetviz as sv
import numpy as np

data = pd.DataFrame({'随机数': np.random.randint(1, 100, 100)})

# 创建SweetViz 报告
report = sv.analyze(data)

# 将报告保存为HTML文件
report.show_html('random_report.html')

2. ydata-profiling

ydata-profiling是一个用于数据探查和分析的 Python 库，可以帮助用户快速了解和分析数据集的内容。通过使用ydata-profiling，用户可以生成关于数据集中各种变量的统计信息、分布情况、缺失值、相关性等方面的报告。这可以帮助用户在数据分析阶段更快地了解数据集的特征，从而更好地进行后续的数据处理和建模工作。

以下是一个简单的示例代码，展示了如何使用ydata-profiling对数据集进行分析：

import pandas as pd
from ydata_profiling import ProfileReport

df = pd.read_csv('data.csv')
profile = ProfileReport(df, title="Profiling Report")

3. DataPrep

Dataprep是一个用于分析、准备和处理数据的开源Python包。DataPrep构建在Pandas和Dask DataFrame之上，可以很容易地与其他Python库集成。

下面是一个简单的示例，演示如何使用DataPrep进行数据探索性分析：

from dataprep.datasets import load_dataset
from dataprep.eda import create_report

df = load_dataset("titanic.csv")
create_report(df).show_browser()

4. AutoViz

Autoviz包可以用一行代码自动可视化任何大小的数据集，并自动生成HTML、bokeh等报告。用户可以与AutoViz包生成的HTML报告进行交互。

以下是一个简单的示例代码，展示了如何使用 AutoViz：

from autoviz.AutoViz_Class import AutoViz_Class

AV = AutoViz_Class()
filename = "" # 如果有文件名，可以在这里指定
sep = "," # 数据集的分隔符
dft = AV.AutoViz(
    filename,
    sep=",",
    depVar="",
    dfte=None,
    header=0,
    verbose=0,
    lowess=False,
    chart_format="svg",
    max_cols_analyzed=30,
    max_rows_analyzed=150000,
    )

5. D-Tale

D-Tale 是一个结合了 Flask 后端和 React 前端的工具，为用户提供了一种轻松查看和分析 Pandas 数据结构的方式。它与 Jupyter 笔记本和 Python/IPython 终端完美集成。目前，该工具支持 Pandas 的数据结构，包括 DataFrame、Series、MultiIndex、DatetimeIndex 和 RangeIndex。用户可以通过 D-Tale 在浏览器中直观地查看数据、生成统计信息、创建可视化图表，并进行一些数据处理操作。D-Tale 的结构使得数据分析变得更加直观和便捷，为用户提供了一种高效的数据探索和分析工具。

6. Dabl

Dabl不太关注单个列的统计度量，而是更多地关注通过可视化提供快速概述，以及方便的机器学习预处理和模型搜索。Dabl中的Plot()函数可以通过绘制各种图来实现可视化，包括:

目标分布图
散射对图
线性判别分析

以下是一个简单的示例代码，展示了如何使用Dabl：

import pandas as pd
import dabl

df = pd.read_csv("titanic.csv")
dabl.plot(df, target_col="Survived")

Python数据挖掘

关注

24
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
这6个探索性数据分析工具，太实用了！

当进行数据分析时，探索性数据分析(EDA)是一个至关重要的阶段，它能帮助我们从数据中发现模式、趋势和异常现象。而选择合适的EDA工具又能够极大地提高工作效率和分析深度。在本文中，笔者将介绍6个极其实用的探索性数据分析(EDA)工具，这些工具能够帮助您更好地理解数据、发现隐藏的信息，并为后续分析和决策提供有力支持。让我们一起来看看这些工具是如何帮助我们探索数据世界的吧！技术交流技术要学会交流、分享，不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。好的文章离不开粉丝的分享、推荐，资料干货、资料分
复制链接

扫一扫

专栏目录