Python数据分析常用的7个开源库

最新推荐文章于 2025-03-18 14:31:09 发布

偷藏星星的老周

最新推荐文章于 2025-03-18 14:31:09 发布

阅读量1k

点赞数 15

文章标签： python 数据分析开发语言 Python学习 Python工具库开源库编程

本文链接：https://blog.csdn.net/m0_75067840/article/details/145627152

版权

包含编程资料、学习路线图、源代码、软件安装包等！【[点击这里]】！

在这里插入图片描述

1.NumPy (Numerical Python)

简介：NumPy 是 Python 科学计算的基础库，提供了高性能的多维数组对象（“ndarray”）以及用于数组操作的各种工具。它是许多其他数据科学库的基础。

主要功能：

高效的数组和矩阵运算：NumPy 的核心是"ndarray"对象，它允许进行向量化运算，避免了 Python 循环的低效，极大地提高了计算速度。支持广播机制，使得不同形状的数组之间也能进行运算。
强大的数学函数：提供了大量的数学函数，包括三角函数、指数函数、对数函数、统计函数等，可以直接应用于数组元素。
随机数生成：提供了各种概率分布的随机数生成函数，用于模拟实验、数据生成等。
线性代数运算：支持矩阵乘法、求逆、特征值分解等线性代数运算。

适用场景：数值计算、科学计算、图像处理、机器学习等。

import numpy as np  
  
# 创建数组  
arr = np.array([1, 2, 3, 4, 5])  
matrix = np.array([[1, 2], [3, 4]])  
  
# 数组运算  
print(arr * 2)  # 元素乘以 2  
print(np.sin(arr)) # 对每个元素求正弦  
  
# 矩阵运算  
print(matrix.T) # 转置  
print(np.dot(matrix, matrix))  # 矩阵乘法

2.Pandas (Python Data Analysis Library)

简介： Pandas 提供了高性能、易用的数据结构和数据分析工具，是数据分析的核心库。它基于 NumPy 构建，但提供了更高级的数据结构和操作。

主要功能：

“Series"和"DataFrame”："Series"类似于一维数组，带标签的数组；"DataFrame"类似于表格，由多个"Series"组成。这是 Pandas 最重要的两种数据结构。
数据清洗和预处理：提供了处理缺失值（“NaN”）、重复值、数据类型转换等功能，是数据分析流程中至关重要的一步。
数据选择和切片：提供了灵活的数据选择和切片方式，可以使用标签、位置、布尔索引等。
数据分组和聚合：可以根据某一列或多列进行分组，然后进行统计、求和、平均值等聚合操作。
时间序列分析：专门处理时间序列数据，提供了日期和时间相关的函数和工具。
I/O 操作：方便地读取和写入各种数据格式（CSV、Excel、JSON、SQL 数据库等）。

适用场景：数据清洗、数据探索、数据分析、数据可视化等。

import pandas as pd  
  
# 创建 DataFrame  
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'], 'Age': [25, 30, 28, np.nan], 'City': ['New York', 'London', 'Paris', 'Tokyo']}  
df = pd.DataFrame(data)  
  
# 处理缺失值  
df['Age'].fillna(df['Age'].mean(), inplace=True) # 用平均值填充  
  
# 数据分组和聚合  
print(df.groupby('City')['Age'].mean())  
  
# 读取 CSV 文件  
# df = pd.read_csv('data.csv')

3.Matplotlib

简介：Matplotlib 是 Python 中最常用的绘图库，提供了丰富的绘图工具，可以创建各种静态、动态和交互式图表。

主要功能：

各种图表类型：折线图、散点图、柱状图、饼图、直方图、箱线图等。
图表定制：可以自定义图表的各种属性，如标题、标签、颜色、线条样式、图例等。
子图：可以在同一张图表中绘制多个子图，方便进行数据比较。

适用场景：数据可视化、数据探索、结果展示等。

import matplotlib.pyplot as plt  
  
x = [1, 2, 3, 4, 5]  
y = [2, 4, 1, 3, 5]  
  
plt.plot(x, y, marker='o', linestyle='--') # 绘制带圆圈标记的虚线  
plt.xlabel('X Axis')  
plt.ylabel('Y Axis')  
plt.title('Line Chart')  
plt.show()

4.Seaborn

简介：Seaborn 是基于 Matplotlib 的高级可视化库，提供了更美观、更高级的图表类型，并且更易于使用。它专注于统计数据可视化。

主要功能：

统计图形：提供了各种统计图形，如分布图（histplot, kdeplot, displot）、关系图（scatterplot, lineplot, relplot）、分类图（boxplot, violinplot, catplot）等。
美观的图表样式：内置了多种美观的图表样式，可以轻松创建专业级的图表。
与 Pandas 集成：可以方便地使用 Pandas 的 DataFrame 进行绘图，代码更加简洁。