Numpy 与 Pandas：数据处理领域的黄金搭档

24毕业生从零开始学ai

于 2025-05-17 11:04:20 发布

阅读量619

点赞数 20

文章标签： numpy pandas

本文链接：https://blog.csdn.net/LNNNNNNNNLLLL/article/details/148024565

版权

在 Python 的数据处理和分析领域，Numpy 和 Pandas 是两个绕不开的重要库。它们各自有着独特的功能和优势，同时又紧密相连，共同构成了数据处理的强大工具链。本文将深入探讨 Numpy 与 Pandas 的关系，帮助读者更好地理解和运用这两个库。

一、Numpy：数值计算的基石

Numpy（Numerical Python）是 Python 科学计算的基础库，它提供了高性能的多维数组对象，以及大量用于数组操作的函数。Numpy 的核心是ndarray（多维数组），它可以存储相同类型的元素，这使得 Numpy 在数值计算方面具有极高的效率。

（一）Numpy 的主要特点

高效的存储和运算：Numpy 数组在内存中是连续存储的，这使得对数组的操作可以通过底层的 C 语言实现，大大提高了运算速度。例如，对两个数组进行加法运算时，Numpy 可以直接对内存中的数据进行操作，而无需像 Python 列表那样进行循环遍历。

丰富的数学函数：Numpy 提供了大量的数学函数，如三角函数、指数函数、对数函数等，可以直接对数组进行操作，方便进行科学计算和数据分析。

多维数组支持：Numpy 数组可以是任意维度的，从一维到多维，这使得它能够处理各种复杂的数值数据结构。

（二）Numpy 的应用场景

Numpy 主要用于数值计算、科学计算和数据分析的底层操作。例如，在机器学习中，数据通常以数组的形式存储和处理，Numpy 提供了高效的数组操作方法，方便进行数据的预处理、特征工程等。

二、Pandas：数据处理的利器

Pandas 是基于 Numpy 构建的，用于数据处理和分析的库。它提供了两种主要的数据结构：Series（一维数组）和DataFrame（二维表格型数据结构），这两种数据结构使得 Pandas 在处理结构化数据时非常方便。

（一）Pandas 的数据结构

Series：Series 是一个一维数组，类似于 Numpy 的一维数组，但它带有标签（索引），可以通过索引来访问和操作数据。Series 可以存储各种数据类型，包括整数、浮点数、字符串等。

DataFrame：DataFrame 是一个二维表格型数据结构，它可以看作是多个 Series 的组合。DataFrame 具有行索引和列索引，每一列可以是不同的数据类型。DataFrame 非常适合处理表格型数据，如 CSV 文件、Excel 表格等。

（二）Pandas 的主要功能

数据加载和存储：Pandas 可以方便地加载各种格式的数据，如 CSV、Excel、SQL 数据库等，也可以将处理后的数据保存为这些格式。

数据清洗和预处理：Pandas 提供了丰富的函数用于数据清洗，如处理缺失值、重复值、异常值等，还可以进行数据的转换、合并、分组等操作。

数据分析和统计：Pandas 提供了大量的统计函数，如求和、均值、方差、标准差等，可以对数据进行描述性统计分析，还可以进行数据的可视化。

三、Numpy 与 Pandas 的关系

（一）Pandas 基于 Numpy 构建

Pandas 的核心数据结构 Series 和 DataFrame 都是基于 Numpy 数组实现的。例如，DataFrame 的底层数据存储实际上是一个 Numpy 数组，每一列的数据类型对应 Numpy 数组的类型。Pandas 利用 Numpy 的高效数值计算能力，在此基础上添加了索引、标签等功能，使得数据处理更加方便和灵活。

（二）功能互补

Numpy 主要侧重于数值计算，提供了高效的数组操作和数学函数，适合处理大规模的数值数据。而 Pandas 则侧重于数据处理和分析，提供了更高级的数据结构和功能，适合处理结构化数据，如表格型数据。在实际应用中，Numpy 和 Pandas 通常是结合使用的。例如，在处理数据时，首先使用 Pandas 进行数据加载、清洗和预处理，然后将数据转换为 Numpy 数组，利用 Numpy 进行高效的数值计算，最后再使用 Pandas 进行结果的整理和分析。

（三）数据类型的交互

Numpy 和 Pandas 的数据类型是相互兼容的。Pandas 的 Series 和 DataFrame 可以直接使用 Numpy 的数据类型，同时，Numpy 数组也可以转换为 Pandas 的 Series 和 DataFrame。例如，可以通过pd.Series(np.array([1, 2, 3]))将 Numpy 数组转换为 Series，也可以通过df.values将 DataFrame 转换为 Numpy 数组。

四、案例演示：Numpy 与 Pandas 的结合使用

下面通过一个简单的案例来演示 Numpy 和 Pandas 的结合使用。假设我们有一个包含学生成绩的数据表格，存储在 CSV 文件中，我们需要对数据进行清洗、计算和分析。

（一）数据加载和清洗

首先使用 Pandas 加载 CSV 文件，并进行数据清洗，处理缺失值和异常值。

import pandas as pd

import numpy as np

# 加载数据

df = pd.read_csv('scores.csv')

# 查看数据基本信息

print(df.info())

# 处理缺失值

df = df.dropna()

# 处理异常值（假设成绩在0-100之间）

df = df[(df['score'] >= 0) & (df['score'] <= 100)]

（二）数据转换为 Numpy 数组进行计算

将清洗后的数据转换为 Numpy 数组，计算成绩的平均值、标准差等统计量。

TypeScript

取消自动换行复制

scores = df['score'].values # 将Series转换为Numpy数组

mean_score = np.mean(scores)

std_score = np.std(scores)

print(f"平均成绩：{mean_score}")

print(f"成绩标准差：{std_score}")

（三）结果整理和分析

将计算结果添加到 DataFrame 中，并进行进一步的分析和可视化。

TypeScript

取消自动换行复制

df['mean_score'] = mean_score

df['std_score'] = std_score

print(df.head())

# 数据可视化（这里使用Matplotlib）

import matplotlib.pyplot as plt

plt.hist(scores, bins=10, edgecolor='black')

plt.xlabel('Score')

plt.ylabel('Frequency')

plt.title('Score Distribution')

plt.show()

通过这个案例可以看出，Numpy 和 Pandas 在数据处理的不同阶段发挥了各自的优势，Pandas 用于数据的加载、清洗和整理，Numpy 用于高效的数值计算，两者结合使用使得数据处理更加高效和便捷。

五、总结

Numpy 和 Pandas 是 Python 数据处理和分析领域的两大核心库，它们之间有着紧密的联系。Pandas 基于 Numpy 构建，利用 Numpy 的高效数值计算能力，添加了索引、标签等功能，使得数据处理更加方便和灵活。Numpy 侧重于数值计算，Pandas 侧重于数据处理和分析，两者功能互补，在实际应用中通常结合使用。掌握 Numpy 和 Pandas 的关系和使用方法，对于从事数据处理和分析工作的人员来说是非常重要的。随着数据科学的不断发展，Numpy 和 Pandas 也在不断更新和完善，为数据处理和分析提供了更强大的支持。