数据操作
- 首先,我们导入
torch
。请注意,虽然它被称为PyTorch,但是代码中使用torch
而不是pytorch
。 - 可以使用
arange
创建一个行向量x
。 这个行向量包含从0开始的前12个整数,它们被默认创建为浮点数。 - 可以通过张量的
shape
属性来访问张量(沿每个轴的长度)的形状 。 - 要想改变一个张量的形状而不改变元素数量和元素值,可以调用
reshape
函数。 例如,可以把张量x
从形状为(12,)的行向量转换为形状为(3,4)的矩阵。 这个新的张量包含与转换前相同的值,但是它被看成一个3行4列的矩阵。 要重点说明一下,虽然张量的形状发生了改变,但其元素值并没有变。 注意,通过改变张量的形状,张量的大小不会改变。 -
我们可以创建一个形状为(2,3,4)的张量,其中所有元素都设置为0。代码如下:
运算符
- 我们也可以把多个张量连结(concatenate)在一起, 把它们端对端地叠起来形成一个更大的张量。 我们只需要提供张量列表,并给出沿哪个轴连结。 下面的例子分别演示了当我们沿行(轴-0,形状的第一个元素) 和按列(轴-1,形状的第二个元素)连结两个矩阵时,会发生什么情况。 我们可以看到,第一个输出张量的轴-0长度(6)是两个输入张量轴-0长度的总和(3+3); 第二个输出张量的轴-1长度(8)是两个输入张量轴-1长度的总和(4+4)
广播机制
- 在上面的部分中,我们看到了如何在相同形状的两个张量上执行按元素操作。 在某些情况下,即使形状不同,我们仍然可以通过调用 广播机制(broadcasting mechanism)来执行按元素操作。 这种机制的工作方式如下:首先,通过适当复制元素来扩展一个或两个数组, 以便在转换之后,两个张量具有相同的形状。 其次,对生成的数组执行按元素操作。
- 由于a和b分别是3×1和1×2矩阵,如果让它们相加,它们的形状不匹配。我们将两个矩阵广播为一个更大的3×2矩阵,如下所示:矩阵a将复制列,矩阵b将复制行,然后再按元素相加。
(都不删减,按照各自的最大行、列进行增加复制)索引和切片
-
就像在任何其他Python数组中一样,张量中的元素可以通过索引访问。 与任何Python数组一样:第一个元素的索引是0,最后一个元素索引是-1; 可以指定范围以包含第一个元素和最后一个之前的元素。
如下所示,我们可以用
[-1]
选择最后一个元素,可以用[1:3]
选择第二个和第三个元素: -
X[-1], X[1:3] 我们可以用
[-1]
选择最后一个元素,可以用[1:3]
选择第二个和第三个元素(从1开始,3是开区间不包括3;1就是第二个元素,第二个第三个元素不包括第四个元素) - 将指定元素写入矩阵:
x[1,2]=9 (即第2行第3列的元素为9) - 如果我们想为多个元素赋值相同的值,我们只需要索引所有元素,然后为它们赋值。 例如,
[0:2,:]
访问第1行和第2行,其中“:”代表沿轴1(列)的所有元素。 虽然我们讨论的是矩阵的索引,但这也适用于向量和超过2个维度的张量。节省内存
- 运行一些操作可能会导致为新结果分配内存。 例如,如果我们用
Y=X+Y
,我们将取消引用Y
指向的张量,而是指向新分配的内存处的张量。 - 这可能是不可取的,原因有两个:首先,我们不想总是不必要地分配内存。 在机器学习中,我们可能有数百兆的参数,并且在一秒内多次更新所有参数。 通常情况下,我们希望原地执行这些更新。 其次,如果我们不原地更新,其他引用仍然会指向旧的内存位置, 这样我们的某些代码可能会无意中引用旧的参数。
- 执行原地操作非常简单。 我们可以使用切片表示法将操作的结果分配给先前分配的数组,为了说明这一点,我们首先创建一个新的矩阵
Z
,其形状与另一个Y
相同, 使用zeros_like
来分配一个全00的块。Z = torch.zeros_like(Y) //首先创建一个新的矩阵Z,注意zero_like的使用 print('id(Z):', id(Z)) Z[:] = X + Y //正常情况下是Z=X+Y,但是会增加新的内存 print('id(Z):', id(Z)) id(Z): 140560527175232 id(Z): 140560527175232 如果在后续计算中没有重复使用X, 我们也可以使用X[:] = X + Y或X += Y来减少操作的内存开销。