1 导论
本文阅读时长约为3分钟。
在今年的三大顶会中,利用pytorch做研究的论文已经一枝独秀,这归功于它的易操作性。当然,pytorch中也有一些需要注意的点,如自加和普通加,在一般的语言中两者等价,在pytorch中则是不一致的,是新手常会踩的一个坑,需要理解与掌握。
2 pytorch中的自加(+=)普通加
pytorch有些特殊,普通的加法如果赋给原来的值,其实质上是新开了一个变量,而不是传统意义上的覆盖原来的地址和值。话不多说,上代码:
a = torch.ones((1, ))
print(id(a), a) ## 输出其地址(id)及数值
a = a + torch.ones((1, ))
print(id(a), a)
其结果是
32258872 tensor([1.])
44322392 tensor([2.])
从上面可以看到,新赋值得到的a地址变为新的了,说明这个新开了一个变量。若想实现覆盖原来的值该怎么办呢?此时可以采用自加,及 += 符号来实现原位操作。类似于上面,继续上代码:
a = torch.ones((1, ))
print(id(a), a) ## 输出其地址(id)及数值
a += torch.ones((1, ))
print(id(a), a)
其结果是:
35666744 tensor([1.])
35666744 tensor([2.])
此时变量完全覆盖在原来的地址上,覆盖了原来的变量a,即为原位操作。
3 pytorch中的原位操作
为了方便进行原位操作,pytorch中的函数可以在调用之后加下划线 ,强调这是进行原位操作(在模型训练中经常用到的w.grad.zero() 即为原位更新,注意 _ 是放在()之前的),简单得用上述例子进行实现,上述操作也可以这样使用:
a = torch.ones((1, ))
print(id(a), a) ## 输出其地址(id)及数值
a.add_(torch.ones((1,)))
print(id(a),a)
输出结果也是:
35666744 tensor([1.])
35666744 tensor([2.])
然而,需要注意的是,此种用下划线 _ 的原位操作方法在面对叶子节点的时候不可以使用。因为叶子节点在迭代过程中需要被用到其他量或梯度的求解,不允许被更改,如果轻易被修改,会导致其他的值计算错误。