【30天玩转python】数据分析与可视化

爱技术的小伙子

于 2024-09-27 08:11:11 发布

阅读量307

点赞数 6

分类专栏： 30天玩转python 文章标签： python 数据分析开发语言

本文链接：https://blog.csdn.net/weixin_39372311/article/details/142583576

版权

30天玩转python 专栏收录该内容

23 篇文章 2 订阅

订阅专栏

数据分析与可视化

数据分析是通过数据提取、整理和分析来发现有用信息的过程，而数据可视化则通过图形和图表的方式，将数据转化为视觉化信息，以便快速理解数据趋势和模式。本篇文章将介绍如何使用 Python 进行数据分析与可视化，重点使用两个常用的库：NumPy、Pandas 进行数据分析，Matplotlib 和 Seaborn 进行数据可视化。

1. 数据分析基础

数据分析的基本步骤包括：

数据收集：从文件、数据库、API 或网络获取数据。
数据清洗：处理缺失值、重复值、格式化问题等。
数据分析：使用统计方法或编程工具分析数据。
数据可视化：将分析结果以图形或表格的形式展示。

2. 使用 `NumPy` 进行数值计算

NumPy 是 Python 的数值计算库，主要用于处理数组和矩阵运算。

2.1 安装 NumPy

可以使用以下命令安装 NumPy：

pip install numpy

2.2 NumPy 基本用法

示例：创建数组

import numpy as np

# 创建一维数组
arr = np.array([1, 2, 3, 4, 5])

# 创建二维数组
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])

print("一维数组:", arr)
print("二维数组:", arr_2d)

示例：数组运算

# 数组加法
arr_sum = arr + 10

# 数组元素求和
arr_total = np.sum(arr)

print("数组加法:", arr_sum)
print("数组元素总和:", arr_total)

3. 使用 `Pandas` 进行数据处理

Pandas 是 Python 最强大的数据分析库之一，它提供了高效的数据结构如 DataFrame，用于处理结构化数据。

3.1 安装 Pandas

可以使用以下命令安装 Pandas：

pip install pandas

3.2 Pandas 基本用法

示例：创建 DataFrame

import pandas as pd

# 创建 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [24, 27, 22, 32],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}

df = pd.DataFrame(data)

print(df)

输出：

      Name  Age         City
0    Alice   24     New York
1      Bob   27  Los Angeles
2  Charlie   22      Chicago
3    David   32      Houston

3.3 数据读取与处理

Pandas 可以从多种格式中读取数据，如 CSV、Excel、SQL 数据库等。

示例：读取 CSV 文件

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 查看前 5 行
print(df.head())

示例：数据清洗

# 删除包含缺失值的行
df = df.dropna()

# 填充缺失值
df['Age'].fillna(df['Age'].mean(), inplace=True)

# 删除重复行
df = df.drop_duplicates()

4. 数据可视化

数据可视化可以帮助我们快速识别数据中的模式、趋势和异常。常用的 Python 可视化库包括 Matplotlib 和 Seaborn。

4.1 安装 Matplotlib 和 Seaborn

pip install matplotlib seaborn

4.2 使用 `Matplotlib` 进行可视化

Matplotlib 是 Python 最基础的可视化库，支持创建多种图表。

示例：绘制折线图

import matplotlib.pyplot as plt

# 数据
x = [1, 2, 3, 4, 5]
y = [10, 20, 25, 40, 30]

# 绘制折线图
plt.plot(x, y)
plt.xlabel('X 轴')
plt.ylabel('Y 轴')
plt.title('折线图示例')
plt.show()

4.3 使用 `Seaborn` 进行高级可视化

Seaborn 是基于 Matplotlib 的高级可视化库，能够轻松创建美观的统计图表。

示例：绘制柱状图

import seaborn as sns

# 示例数据
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [24, 27, 22, 32]}

df = pd.DataFrame(data)

# 绘制柱状图
sns.barplot(x='Name', y='Age', data=df)
plt.title('柱状图示例')
plt.show()

示例：绘制散点图

# 加载自带数据集
df = sns.load_dataset('iris')

# 绘制散点图
sns.scatterplot(x='sepal_length', y='sepal_width', data=df)
plt.title('鸢尾花数据集散点图')
plt.show()

5. 综合示例：数据分析与可视化

让我们结合 Pandas、Matplotlib 和 Seaborn，进行一个实际的数据分析和可视化任务。

任务：分析和可视化某城市的气温变化趋势

步骤：

读取数据文件。
计算每月的平均气温。
绘制折线图展示气温变化趋势。

示例代码：

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 读取 CSV 数据
df = pd.read_csv('temperature_data.csv')

# 计算每月的平均气温
df['Date'] = pd.to_datetime(df['Date'])
df['Month'] = df['Date'].dt.month
monthly_avg_temp = df.groupby('Month')['Temperature'].mean().reset_index()

# 绘制折线图
plt.plot(monthly_avg_temp['Month'], monthly_avg_temp['Temperature'])
plt.xlabel('月份')
plt.ylabel('平均气温 (°C)')
plt.title('某城市月平均气温变化趋势')
plt.show()

# 使用 Seaborn 绘制带有数据点的折线图
sns.lineplot(x='Month', y='Temperature', data=monthly_avg_temp, marker='o')
plt.title('某城市月平均气温变化趋势 (带数据点)')
plt.show()