1. require_grad
一个变量是否可学习,可以通过设置变量Variable
的require_grad
属性。
2. optim
optim
包里面的优化器像SGD
等的第一个参数,就设置了要学习的参数变量。
3. detach
如果一个变量调用了detach()
函数,那么形成该变量结点的图就脱离了,梯度也就不会传递到该变量前面去了。
4. zero_grad
可以计算所有权重weight
、偏置bias
、变量Varialbe
的梯度,对不要学习的权重、偏置或变量的梯度置为零zero_grad
。
5. volatile
如果只有前向计算,没有后向梯度计算,设置volatile
可以提高效率。