Python实战：数据分析从获取数据到可视化输出

最新推荐文章于 2024-12-07 10:47:57 发布

拥抱AI

最新推荐文章于 2024-12-07 10:47:57 发布

阅读量1k

点赞数 7

文章标签： python 数据分析开发语言

本文链接：https://blog.csdn.net/oandy0/article/details/137094098

版权

引言

随着大数据时代的到来，数据分析已成为各个行业的重要需求。Python作为一种功能强大的编程语言，在数据分析领域有着广泛的应用。

1. 数据获取

在数据分析之前，我们需要获取数据。数据可以来源于多种渠道，如公开的数据集、API接口、数据库等。本文将以一个公开的数据集为例，演示如何使用Python获取数据。

1.1 使用`pandas`读取数据

首先，我们需要安装pandas库：

pip install pandas

然后，我们可以使用pandas的read_csv函数来读取CSV文件：

import pandas as pd
# 读取CSV文件
data = pd.read_csv('data.csv')
# 显示前5行数据
print(data.head())

2. 数据清洗

获取数据后，我们需要对数据进行清洗，以确保数据的质量。数据清洗包括缺失值处理、重复值处理、异常值处理等。

2.1 处理缺失值

使用pandas处理缺失值：

# 删除包含缺失值的行
data_clean = data.dropna()
# 或使用填充值填充缺失值
data_clean = data.fillna(0)

2.2 处理重复值

使用pandas处理重复值：

# 删除重复值
data_clean = data_clean.drop_duplicates()

2.3 处理异常值

使用numpy和pandas处理异常值：

import numpy as np
# 使用Z-Score方法检测异常值
z_scores = np.abs((data_clean - data_clean.mean()) / data_clean.std())
# 删除Z-Score大于3的行
data_clean = data_clean[(z_scores < 3).all(axis=1)]

3. 数据分析

数据清洗完成后，我们可以进行数据分析。数据分析可以包括描述性统计分析、相关性分析、假设检验等。

3.1 描述性统计分析

使用pandas进行描述性统计分析：

# 描述性统计分析
describe = data_clean.describe()
# 显示描述性统计分析结果
print(describe)

3.2 相关性分析

使用pandas进行相关性分析：

# 计算相关性矩阵
correlation = data_clean.corr()
# 显示相关性矩阵
print(correlation)

3.3 假设检验

使用scipy进行假设检验：

from scipy import stats
# 单样本t检验
t_test = stats.ttest_1samp(data_clean['column_name'], 0)
# 显示t检验结果
print(t_test)

4. 数据可视化

数据分析完成后，我们可以使用数据可视化工具将分析结果展示出来。数据可视化可以更直观地展示数据，便于理解和交流。

4.1 使用`matplotlib`进行数据可视化

首先，我们需要安装matplotlib库：

pip install matplotlib

然后，我们可以使用matplotlib进行数据可视化：

import matplotlib.pyplot as plt
# 绘制直方图
plt.hist(data_clean['column_name'], bins=30)
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.title('Histogram')
plt.show()

4.2 使用`seaborn`进行数据可视化

首先，我们需要安装seaborn库：

pip install seaborn

然后，我们可以使用seaborn进行数据可视化：

import seaborn as sns
# 绘制热力图
sns.heatmap(correlation, annot=True, cmap='coolwarm')
plt.show()

4.3 使用`plotly`进行数据可视化

首先，我们需要安装plotly库：

pip install plotly

然后，我们可以使用plotly进行数据可视化：

import plotly.express as px
# 绘制散点图
fig = px.scatter(data_clean, x='column_name1',y='column_name2',
color='column_name3', size='column_name4')
fig.show()

在上面的代码中，我们使用了plotly.express来创建一个散点图，其中column_name1和column_name2是散点的x轴和y轴，column_name3用于设置散点的颜色，column_name4用于设置散点的大小。fig.show()将图表显示出来。

5. 实战案例

为了更好地理解Python数据分析的全过程，我们将通过一个具体的案例来演示如何从获取数据到可视化输出。

5.1 获取数据

我们将使用pandas从UCI机器学习库中获取著名的Iris数据集。

# 从UCI机器学习库获取Iris数据集
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
column_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'species']
iris_data = pd.read_csv(url, names=column_names)

5.2 数据清洗

我们将检查Iris数据集是否有缺失值，并进行简单的数据清洗。

# 检查缺失值
print(iris_data.isnull().sum())
# 由于Iris数据集没有缺失值，我们不需要进行缺失值处理

5.3 数据分析

我们将对Iris数据集进行描述性统计分析和相关性分析。

# 描述性统计分析
print(iris_data.describe())
# 相关性分析
print(iris_data.corr())

5.4 数据可视化

我们将使用seaborn和plotly对Iris数据集进行可视化。

# 使用seaborn绘制PairGrid
sns.pairplot(iris_data, hue='species')
plt.show()
# 使用plotly绘制3D散点图
fig = px.scatter_3d(iris_data, x='sepal_length', y='sepal_width', z='petal_length',
                    color='species')
fig.show()