python数据分析与可视化
1. 数据准备
- 数据加载:从文件、数据库、API 中导入数据。
- 数据清理:处理缺失值、重复数据、异常值,转换数据类型等。
2. 数据分析基础
数据分析的基本步骤包括数据收集、数据清理、数据探索、数据建模和数据可视化。Python 的强大生态系统支持每一个步骤。
1.1 数据收集
数据可以通过多种方式收集,如 CSV 文件、数据库、API 或爬虫等。
- 读取 CSV 文件:
import pandas as pd
# 读取 CSV 文件
df = pd.read_csv('data.csv')
- 从数据库读取数据:
import sqlite3
# 连接到 SQLite 数据库
conn = sqlite3.connect('database.db')
df = pd.read_sql_query("SELECT * FROM table_name", conn)
1.2 数据清理
数据清理是数据分析中至关重要的步骤。常见的清理操作包括处理缺失值、重复值、数据类型转换和数据格式化等。
- 处理缺失值:
# 删除缺失值
df.dropna(inplace=True)
# 用均值填充缺失值
df.fillna(df.mean(), inplace=True)
- 删除重复值:
df.drop_duplicates(inplace=True)
1.3 数据探索
数据探索用于了解数据的分布和特征。可以使用统计描述、分组和可视化等方法进行探索。
- 统计描述:
print(df.describe()) # 显示基本统计信息
- 分组:
grouped = df.groupby('category').sum()
3. 数据可视化
- 基础可视化:通过折线图、散点图、直方图等观察数据的分布和关系。
- 高级可视化:包括交互式可视化、分面图、多变量图等,进一步挖掘数据背后的复杂模式。
4. 模型构建与评估(如需)
- 机器学习模型:使用回归、分类或聚类模型,对数据进行预测、分类或分群。
- 模型评估:通过交叉验证、混淆矩阵、ROC 曲线等评价模型性能。
详细步骤和代码示例:
Step 1: 数据准备
1.1 导入必要的库
import pandas as pd # 数据处理
import numpy as np # 数值计算
import matplotlib.pyplot as plt # 基础绘图