python数据分析与可视化

alankuo

于 2024-10-03 10:07:44 发布

阅读量260

点赞数 5

分类专栏：编程语言文章标签： python 数据分析开发语言

本文链接：https://blog.csdn.net/alankuo/article/details/142685694

版权

编程语言专栏收录该内容

13 篇文章 0 订阅

订阅专栏

以下是关于Python数据分析与可视化的详细介绍：

一、数据分析基础

数据获取与导入
- 读取文件
  - CSV文件：可以使用pandas库中的read_csv函数轻松读取CSV格式的数据文件。例如：

import pandas as pd

data = pd.read_csv('data.csv')

 - **Excel文件**：对于Excel文件，`pandas`提供了`read_excel`函数。需要确保已经安装了`openpyxl`或`xlrd`（取决于Excel文件的版本）。例如：

data = pd.read_excel('data.xlsx')

从数据库获取数据
- 若要从数据库（如MySQL）获取数据，可以使用sqlalchemy库。首先需要安装sqlalchemy和相应的数据库驱动（如mysql - connector - python用于MySQL）。

from sqlalchemy import create_engine
import pandas as pd

engine = create_engine('mysql+mysql - connector://user:password@localhost:3306/database')
query = "SELECT * FROM your_table"
data = pd.read_sql(query, engine)

数据探索与清洗
- 查看数据结构
  - 使用pandas的head、tail和info方法可以快速查看数据的前几行、后几行以及数据的整体结构（包括列名、数据类型、非空值数量等）。例如：

data.head()
data.info()

处理缺失值
- 可以使用dropna方法删除包含缺失值的行或列，或者使用fillna方法填充缺失值。例如：

# 删除包含缺失值的行
cleaned_data = data.dropna()
# 用均值填充某列的缺失值
column_mean = data['column_name'].mean()
filled_data = data['column_name'].fillna(column_mean)

数据标准化与归一化
- 在scikit - learn库中，提供了用于数据标准化（如StandardScaler）和归一化（如MinMaxScaler）的工具。例如：

from sklearn.preprocessing import StandardScaler, MinMaxScaler

scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)

minmax_scaler = MinMaxScaler()
normalized_data = minmax_scaler.fit_transform(data)

二、数据分析操作

数据统计分析
- 基本统计量
  - 使用pandas的describe方法可以获取数据的基本统计量，如均值、中位数、标准差、最小值、最大值等。例如：

data.describe()

分组统计
- 可以根据某一列或多列对数据进行分组，并计算每组的统计量。例如，对一个销售数据按照地区进行分组并计算销售额的总和：

grouped = data.groupby('region')['sales'].sum()

数据关联与合并
- 合并数据
  - 使用pandas的merge函数可以根据共同的列将两个数据集进行合并。例如：

data1 = pd.DataFrame({'id': [1, 2, 3], 'name': ['a', 'b', 'c']})
data2 = pd.DataFrame({'id': [1, 2, 3], 'age': [20, 25, 30]})
merged_data = pd.merge(data1, data2, on='id')

关联分析（相关系数计算）
- 使用pandas或numpy可以计算数据列之间的相关系数，以了解变量之间的线性关系。例如：

import numpy as np

correlation = np.corrcoef(data['column1'], data['column2'])

三、数据可视化

Matplotlib基础
- 安装与导入
  - 首先需要安装Matplotlib库，可以使用pip install matplotlib命令安装。然后在Python脚本中导入：

import matplotlib.pyplot as plt

绘制简单图形
- 折线图：例如，绘制一个简单的时间序列数据的折线图。

x = [1, 2, 3, 4, 5]
y = [10, 15, 13, 17, 20]
plt.plot(x, y)
plt.xlabel('Time')
plt.ylabel('Value')
plt.title('Simple Line Plot')
plt.show()

 - **柱状图**：绘制不同类别数据的数量对比柱状图。

categories = ['A', 'B', 'C']
values = [20, 30, 25]
plt.bar(categories, values)
plt.xlabel('Categories')
plt.ylabel('Values')
plt.title('Bar Chart')
plt.show()

Seaborn可视化库
- 安装与导入
  - 使用pip install seaborn安装Seaborn库，然后导入：

import seaborn as sns

美观的统计图形绘制
- 箱线图：用于展示数据的分布情况，包括四分位数、中位数、异常值等。

data = pd.read_csv('data.csv')
sns.boxplot(x='category', y='value', data=data)
plt.show()

 - **热力图**：用于展示数据集中变量之间的相关性。

correlation_matrix = data.corr()
sns.heatmap(correlation_matrix, annot=True)
plt.show()

交互式可视化（Plotly）
- 安装与导入
  - 使用pip install plotly安装Plotly库，对于在Jupyter Notebook中使用还需要安装plotly.express和plotly.graph_objects。

import plotly.express as px
import plotly.graph_objects as go

创建交互式图形
- 交互式折线图：例如，创建一个可以缩放、悬停查看数据点详细信息的折线图。

data = pd.read_csv('data.csv')
fig = px.line(data, x='date', y='value')
fig.show()

 - **3D散点图**：用于展示三个变量之间的关系。

x = data['x']
y = data['y']
z = data['z']
fig = go.Figure(data=[go.Scatter3d(x=x, y=y, z=z, mode='markers')])
fig.show()

alankuo

关注

5
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录