什么是 NumPy
NumPy 是 Python 中科学计算的基础包。它是一个 Python 库,提供多维数组对象,各种派生对象(如掩码数组和矩阵),以及用于在数组上进行快速操作的各种例程,有包括数学、逻辑、形状操作、排序、选择、输入输出、离散傅立叶变换、基本线性代数,基本统计运算和随机模拟等等。
NumPy 包的核心是 ndarray 对象。它封装了 python 原生的同数据类型的 n 维数组,为了保证其性能优良,其中有许多操作都是代码在本地进行编译后执行的。
NumPy 数组和标准 Python 序列之间有几个重要的区别:
1. NumPy 数组在创建时具有固定的大小,与 Python 的 list 对象(可以动态增长)不同。更改 ndarray 的大小将创建一个新数组并删除原来的数组。
2. NumPy 数组中的元素都需要具有相同的数据类型,因此在内存中的大小相同。 例外情况:Python 的数组对象里包含了 NumPy 的对象的时候,这种情况下就允许不同大小元素的数组。
3. NumPy 数组有助于对大量数据进行高级数学和其他类型的操作。通常,这些操作的执行效率更高,比使用 Python 内建序列的代码更少。
4. 越来越多的基于 Python 的科学和数学软件包使用 NumPy 数组; 虽然这些工具通常都支持 Python 内建序列作为参数,但它们在处理之前会还是会将输入的数组转换为 NumPy 的数组,而且也通常输出为 NumPy 数组。
关于数组大小和速度的要点在科学计算中尤为重要。举一个简单的例子,考虑将1维数组中的每个元素与相同长度的另一个序列中的相应元素相乘的情况。如果数据存储在两个Python 列表 a 和 b 中,我们可以迭代每个元素,如下所示:
c = []
for i in range(len(a)):
c.append(a[i]*b[i])
确实符合我们的要求,但如果 a 和 b 每一个都包含数以百万计的数字,我们会付出 Python 中循环的效率低下的代价。我们可以通过在 C 中写入以下代码,更快地完成相同的任务。
for (i = 0; i < rows; i++): {
c[i] = a[i]*b[i];
}
这节省了解释 Python 代码和操作 Python 对象所涉及的所有开销,但牺牲了用 Python 编写代码所带来的好处。此外,编码工作需要增加的维度,我们的数据。例如,对于二维数组,C 代码(如前所述)会扩展为这样:
for (i = 0; i < rows; i++): {
for (j = 0; j < columns; j++): {
c[i][j] = a[i][j]*b[i][j];
}
}
NumPy 为我们提供了两全其美的解决方案:当涉及到 ndarray 时,元素间的操作是“默认模式”,但元素间的操作由预编译的 C 代码快速执行。在 NumPy 中:
c = a * b
以近 C 速度执行前面的示例所做的事情,但是我们期望基于Python的代码具有简单性。的确,NumPy的语法更为简单!上述例子说明了 NumPy 的两个特征,它们是 NumPy 的大部分功能的基础:矢量化和广播(vectorization and broadcasting)。
矢量化表示代码中没有任何显式的循环,索引等。矢量化代码有许多优点,其中包括:
1. 矢量化代码更简洁,更易于阅读
2. 更少的代码行通常意味着更少的错误
3. 代码更接近于标准的数学符号
4. 矢量化会产生更多 “Pythonic” 代码。
广播是用于描述操作的隐式逐元素行为的术语; 一般来说,在 NumPy 中,所有操作,不仅仅是算术运算,而是逻辑,位,功能等,都以这种隐式的逐元素方式表现,即它们进行广播。此外,在上面的例子中,a 和 b 可以是相同形状的多维数组,或者标量和数组,或者甚至是具有不同形状的两个数组,条件是较小的数组可以“扩展”到更大的形状。
参考资料:
1. NumPy 官方文档:https://numpy.org/devdocs/