探索性数据分析（EDA）：从数据中发现洞察力

theskylife

已于 2023-12-03 18:08:49 修改

阅读量1.5k

点赞数 25

分类专栏： 20天玩转数据分析数据分析文章标签：数据分析 python 人工智能数据挖掘机器学习

于 2023-11-29 09:21:13 首次发布

本文链接：https://blog.csdn.net/qq_41780234/article/details/134676298

版权

探索性数据分析(EDA)是数据科学的关键步骤，涉及数据概览、描述性统计、数据可视化等。通过直方图、散点图和折线图等工具，分析数据分布和特征关系，为建模提供指导。同时，处理缺失值和异常值也是EDA的重要环节，确保数据质量。通过实际案例，展示了EDA在销售数据中的应用，包括销售趋势分析和特征相关性探索。

摘要由CSDN通过智能技术生成

写在开头

在数据科学的世界中，探索性数据分析（Exploratory Data Analysis，EDA）是一项至关重要的任务，它能够帮助我们深入了解数据、发现潜在的模式，并为进一步的分析和建模提供基础。本篇博客将介绍探索性数据分析的基本技术和方法，通过具体的数字、场景和代码，帮助读者在数据的海洋中发现有价值的信息和洞察力。

1. EDA的基本步骤

探索性数据分析通常包括以下基本步骤：

1.数据收集： 获取数据集，可以来自数据库、文件、API等数据源。确保了解数据的来源、格式以及数据集中包含的变量。
2.初步观察： 对数据集进行初步观察，了解数据的基本信息，包括数据的维度、列名、数据类型等。
3.数据清洗： 进行数据清洗，处理缺失值、异常值、重复值等。确保数据的准确性和完整性。
4.单变量分析： 对单个变量进行分析，包括描述性统计、频数分布、直方图等。这有助于了解每个变量的分布和特征。
5.双变量分析： 探索变量之间的关系，通过散点图、相关性分析等方法来了解两个变量之间的关联性。
6.多变量分析： 考虑多个变量之间的关系，使用热力图、散点矩阵等方法，了解变量之间的复杂关系。
7.探索性可视化： 使用各种图表（如散点图、箱线图、直方图）进行可视化分析，直观地展示数据的分布、趋势和异常。
8.数据变换和特征工程： 对数据进行转换或特征工程，创建新的变量，以便更好地进行建模和分析。
9.统计检验： 使用统计方法验证假设，例如t检验、方差分析等，以确认观察到的模式是否具有统计学意义。
10.建模： 如果有兴趣，可以尝试建立一些简单的模型，以进一步探索数据中的模式和趋势。
11.总结和结论： 总结整个EDA的过程，提炼出关键观察、发现的模式，并得出初步结论。
12.报告和可视化： 将分析结果以清晰的图表和报告的形式呈现，确保能够有效地传达数据的关键信息。
13.反馈和迭代： 根据反馈和可能的需求，对分析进行迭代，进一步深入研究特定领域或问题。

1.1 数据概览

首先，我们需要对数据有一个整体的了解。使用 Pandas 库可以轻松查看数据的前几行，了解数据的列名、类型等信息：

import pandas as pd

# 读取数据
data = pd.read_csv('your_data.csv')

# 查看前几行
print(data.head())

1.2 描述性统计

使用 Pandas 的 describe() 方法可以生成对数值型数据的基本描述统计信息，如均值、标准差、最小值、25%、50%、75% 分位数等：

# 描述性统计
print(data.describe())

1.3 借用一些EDA库

pandas_profiling可以快速帮助理解数据，数据量大的话，可能耗费时间比较长。

import pandas_profiling

#预览数据
pandas_profiling.ProfileReport(data)

missinggo是一个可视化的缺失值库，可以帮助我们快速了解数据中的缺失情况。

import missingno as msno

# 可视化缺失值
msno.matrix(df)
plt.title('Missing Values Matrix')
plt.show()

2. 数据可视化

2.1 直方图

直方图是一种展示数据分布的有效方式。通过 Matplotlib 或 Seaborn 库，我们可以轻松绘制直方图：

import matplotlib.pyplot as plt
import seaborn as sns

# 绘制直方图
plt.figure(figsize=(10, 6))
sns.histplot(data['feature'

最低0.47元/天解锁文章

theskylife

关注

25
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录