数据探险记：探索性数据分析带你发现未知宝藏

凭栏落花侧

已于 2024-10-03 01:13:54 修改

阅读量614

点赞数 11

文章标签：数据分析信息可视化数据挖掘人工智能 python pip conda

于 2024-10-03 00:09:53 首次发布

本文链接：https://blog.csdn.net/m0_67484548/article/details/142665333

版权

数据的世界，比你想象的更有趣

在这个数字化的时代，我们每天都被数据包围着。

从购物记录到社交媒体互动，每一个点击、每一次滑动都留下了数据的痕迹。

但这些数字背后隐藏着怎样的故事呢？今天，我们就来一起探索性数据分析，揭开数据那神

秘的面纱。

为什么数据背后的故事如此吸引人？

想象一下，数据就像是一个个宝藏，而探索性数据分析就是我们的藏宝图。通过这张图，我

们可以进行如下操作：

1. 发现规律

就像侦探破案一样，我们能在看似杂乱无章的数据中找到线索，揭示背后的规律。

2. 解决难题

数据的秘密可以帮助企业找到提高效率、节约成本的方法，甚至预测未来的趋势。

3. 讲述故事

数据不仅仅是数字，它们还能组成一个个生动的故事，让决策变得更加直观和有趣。

手把手教你探索数据的故事

1. 数据收集

就像采集珍珠一样，我们需要从不同的源头收集数据。

这些数据可以是用户行为、销售记录，甚至是天气信息。

2. 数据清洗

数据往往充满了杂质，我们需要清洗它们，让它们变得干净、整齐

这样才能更好地使用。

3. 数据探索

让我们带上放大镜，仔细观察数据。

我们会用统计方法来描述数据的基本特征，比如平均值、中位数。

4. 数据可视化：把数据变成图表，就像把食材变成美食。

通过图表，我们可以更直观地看到数据的分布、趋势和模式。

5. 数据挖掘：深入挖掘数据，就像挖矿一样，我们可能会发现意想不到的宝藏。

比如，通过分析用户的购买习惯，我们发现晚上10点是购物高峰。

6. 结果解读：最后，我们要把挖掘到的信息编织成一个故事

让每个人都能理解数据背后的意义。

案例解析：超市的秘密

让我们以一家超市为例，看看探索性数据分析是如何工作的：

假设我们发现牛奶和面包的销售数据总是同时上升。

通过进一步分析，我们发现原来很多顾客在买牛奶的时候也会买面包。

于是，超市决定将牛奶和面包放得更近一些，结果销售量双双上升（获取一波小胜利）。

光用语言描述可能略显苍白。下面我们将使用 Python 的 Pandas、Matplotlib 和 Seaborn库

来分析一个假设的电商销售数据集。详细的分析步骤和代码示例如下所示。

步骤1：导入必要的库

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

步骤2：加载数据

# 假设数据集为 'ecommerce_sales.csv'

data = pd.read_csv('ecommerce_sales.csv')

步骤3：初步数据审查

# 查看数据的前几行

print(data.head())

# 查看数据的基本信息

print(data.info())

# 查看数据的统计摘要

print(data.describe())

步骤4：数据清洗

# 检查缺失值

missing_values = data.isnull().sum()

print(missing_values)

# 假设我们删除含有缺失值的行

data = data.dropna()

# 检查数据类型是否正确

print(data.dtypes)

步骤5：数据转换

# 将日期列转换为日期类型

data['Date'] = pd.to_datetime(data['Date'])

# 提取年份、月份和星期作为新的列

data['Year'] = data['Date'].dt.year

data['Month'] = data['Date'].dt.month

data['Week'] = data['Date'].dt.week

# 将类别数据转换为有序类别数据（如果适用）

data['Category'] = pd.Categorical(data['Category'], categories=['Electronics', 'Clothing', 'Home Goods'], ordered=True)

步骤6：探索性数据分析

6.1 销售趋势分析

# 按月汇总销售额

monthly_sales = data.groupby('Month')['Sales'].sum()

# 绘制销售额趋势图

plt.figure(figsize=(12, 6))

monthly_sales.plot(kind='line', marker='o')

plt.title('Monthly Sales Trend')

plt.xlabel('Month')

plt.ylabel('Total Sales')

plt.grid(True)

plt.show()

6.2 类别销售分析

# 按类别汇总销售额

category_sales = data.groupby('Category')['Sales'].sum()

# 绘制类别销售额柱状图

plt.figure(figsize=(10, 6))

category_sales.plot(kind='bar', color=['blue', 'green', 'red'])

plt.title('Sales by Category')

plt.xlabel('Category')

plt.ylabel('Total Sales')

plt.xticks(rotation=45)

plt.show()

6.3 季节性分析

# 按月和类别汇总销售额

monthly_category_sales = data.groupby(['Month', 'Category'])['Sales'].sum().unstack()

# 绘制堆叠柱状图

monthly_category_sales.plot(kind='bar', stacked=True, figsize=(12, 6))

plt.title('Monthly Sales by Category')

plt.xlabel('Month')

plt.ylabel('Total Sales')

plt.xticks(rotation=45)

plt.legend(title='Category')

plt.show()

步骤7：相关性分析

# 计算各列之间的相关性

correlation_matrix = data.corr()

# 绘制热力图

plt.figure(figsize=(12, 8))

sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')

plt.title('Correlation Matrix of Features')

plt.show()

步骤8：异常值检测

# 使用箱线图检测销售额的异常值

plt.figure(figsize=(12, 6))

sns.boxplot(x=data['Sales'])

plt.title('Box Plot of Sales')

plt.show()

通过上述代码和步骤的实施，我们不仅对数据集的结构有了清晰的认识，还揭示了销售数据

的趋势、模式和潜在的异常。我们成功地从原始数据中提取了有价值的信息，这些信息为后续的统

计分析奠定了坚实的基础，并为构建预测模型和指导业务决策提供了重要的依据。回顾我们的分析

过程，我们完成了数据导入、清洗、转换，以及一系列探索性数据分析，包括趋势分析、类别销售

分析和季节性研究。此外，我们还进行了相关性分析和异常值检测，确保了分析结果的准确性和可

靠性。虽然实际的数据分析可能涉及更复杂的技术和方法，但我们的初步探索无疑为深入挖掘数据

价值迈出了关键的第一步。

数据的世界，等待你的探索

探索性数据分析就像是一场冒险，每一次深入都可能有新的发现。

它不仅让数据变得生动有趣，还能帮助我们做出更明智的决策。