【数据分析-22】数据分析案例-CSDN博客

本文链接：https://blog.csdn.net/m0_69378371/article/details/145525621

数据分析是将数据转化为有意义的信息，以便做出决策的过程。在数据分析过程中，我们通过数据的清洗、探索性分析、建模、评估和可视化等多个步骤来完成分析目标。下面我将给出一个具体的数据分析案例，帮助您更好地理解数据分析的流程和方法。

数据分析案例：销售数据分析

假设我们有一家公司销售数据，包含以下字段：

Product ID：产品编号
Product Name：产品名称
Quantity Sold：销售数量
Sales：销售额
Region：销售区域
Date：销售日期

我们的目标是通过数据分析回答以下问题：

每个区域的销售额和销量如何？
销售额排名前10的产品有哪些？
各个月的销售趋势如何？

1. 数据准备

首先，我们需要加载和查看数据。假设我们已经拥有了一个 sales_data.csv 文件，它包含了这些字段。我们可以使用 Pandas 读取该文件。

import pandas as pd

# 读取数据
df = pd.read_csv('sales_data.csv')

# 查看数据
print(df.head())

假设数据看起来像这样：

Product ID	Product Name	Quantity Sold	Sales	Region	Date
1001	Product A	50	5000	North	2021-01-15
1002	Product B	30	3000	South	2021-01-16
1003	Product C	70	7000	East	2021-01-17
1004	Product D	20	2000	West	2021-01-18

2. 数据清洗与处理

在分析之前，首先需要进行数据清洗和预处理，确保数据的完整性和准确性。

处理缺失值：检查是否有缺失的销售数据。
日期格式化：将 Date 列转换为 datetime 类型，方便按日期分组。
计算总销售额：如果 Sales 列没有直接提供，而是基于 Quantity Sold 和单价计算出来的，我们可以通过公式计算出。

# 将 Date 列转换为 datetime 类型
df['Date'] = pd.to_datetime(df['Date'])

# 处理缺失值，填充或删除
df = df.dropna(subset=['Sales'])  # 删除销售额为缺失的行

# 添加计算列
df['Sales'] = df['Quantity Sold'] * df['Unit Price']  # 假设我们有Unit Price列

3. 数据分析

3.1 每个区域的销售额和销量

我们可以使用 groupby 来对数据进行分组，并计算每个区域的销售总额和销售数量。

# 每个区域的总销售额和销量
region_sales = df.groupby('Region').agg(
    total_sales=('Sales', 'sum'),
    total_quantity_sold=('Quantity Sold', 'sum')
).reset_index()

print(region_sales)

输出结果可能如下：

Region	total_sales	total_quantity_sold
North	50000	5000
South	30000	3000
East	70000	7000
West	20000	2000

3.2 销售额排名前10的产品

我们可以根据销售额对产品进行排序，找出排名前10的产品。

# 销售额排名前10的产品
top_10_products = df.groupby('Product Name').agg(
    total_sales=('Sales', 'sum'),
    total_quantity_sold=('Quantity Sold', 'sum')
).sort_values(by='total_sales', ascending=False).head(10)

print(top_10_products)

输出结果可能如下：

Product Name	total_sales	total_quantity_sold
Product A	50000	5000
Product C	40000	4000
Product B	30000	3000

3.3 各个月的销售趋势

通过对日期的处理，我们可以按月份统计每个月的销售额，并绘制趋势图。

import matplotlib.pyplot as plt

# 按月份分组并计算每个月的总销售额
df['Month'] = df['Date'].dt.to_period('M')
monthly_sales = df.groupby('Month').agg(total_sales=('Sales', 'sum')).reset_index()

# 绘制销售趋势图
plt.figure(figsize=(10,6))
plt.plot(monthly_sales['Month'].astype(str), monthly_sales['total_sales'], marker='o')
plt.title('Monthly Sales Trend')
plt.xlabel('Month')
plt.ylabel('Total Sales')
plt.xticks(rotation=45)
plt.grid(True)
plt.show()

输出为一张销售趋势图，展示了每个月的销售变化。

4. 数据可视化

通过绘制图表，我们能够更直观地理解数据背后的趋势和模式。以下是一些常见的可视化方法：

柱状图：展示类别的对比，如不同区域的销售额。
折线图：展示时间序列数据的变化趋势，如销售额的月度变化。
饼图：展示各部分占比，如各区域销售额的比例。
散点图：展示两个变量之间的关系，如销售额与销量之间的关系。

5. 数据导出

分析完成后，您可能需要将分析结果保存为 CSV 文件或 Excel 文件。

# 将分析结果导出到 CSV 文件
region_sales.to_csv('region_sales.csv', index=False)

# 将整个 DataFrame 导出到 Excel 文件
df.to_excel('sales_data_analysis.xlsx', index=False)