数组在进行矢量化运算时,通常会要求两个数组的形状是相等的,但是我们平时仍然难以避免出现两个形状不相等的数组进行矢量化运算的情况。这个时候这两个就会触发所谓的广播机制。广播机制通常出现在numpy和pytorch的使用中。这里,以numpy来举例,说明广播机制到底是如何运算的。
创建两个不同形状的数组
import numpy as np
arr1 = np.array([[0], [1], [2], [3]])
print(arr1.shape)
arr2 = np.array([1, 2, 3])
print(arr2.shape)
print(arr1+arr2)
这时我们可以通过.shape函数输出两个数组的形状。arr1输出(4, 1), arr2输出(3,)。也就是说arr1一是一个四行一列的数组,而arr2是一个一行三列的数组。
数组相加结果
两数组相加输出结果如图所示
运算过程
如图所示,在这次运算中首先将两数组都扩展为四行三列的数组,而扩展方式则是复制。如arr1的扩展就是将原数组作为第一列内容,然后将第一列复制两次填入二三列,arr2则是将第一行数据复制三次后填入二三四行。之后的相加过程则就是常规的相加了。
广播机制触发条件
广播机制可以实现两个或以上的不同shape的数组的运算,而这些数组需要满足以下两个条件之一。
- 数组的某一维度等长
- 其中一个数组的某一维度为1
同时我们可以通过观察发现,广播机制的扩展方式是通过复制使运算中的数组的各维度都与最大的数组的shape相同。