东阳的学习之路,坚持就是胜利!
计算图
不对理论做过多描述:见下图
在pytorch维护了这样一个计算图,同时在pytorch中只保存叶子结点的梯度信息,如果需要保存非叶子结点的梯度信息则需要使用retain_grad()
pytorch还记录了梯度的类型,AddBackward0, MulBackward0等
例子:
import torch
w = torch.tensor([1.], requires_grad=True)
x = torch.tensor([2.], requires_grad=True)
a = torch.add(w, x) # retain_grad()
a.retain_grad()
b = torch.add(w, 1)
y = torch.mul(a, b)
y.backward()
print(w.grad)
# 查看叶子结点
print("is_leaf:\n", w.is_leaf, x.is_leaf, a.is_leaf, b.is_leaf, y.is_leaf)
[out]: True True False False False
# 查看梯度
print("gradient:\n", w.grad, x.grad, a.grad, b.grad, y.grad)
[out]: tensor([5.]) tensor([2.]) tensor([2.]) None None
# 查看 grad_fn
print("grad_fn:\n", w.grad_fn, x.grad_fn, a.grad_fn, b.grad_fn, y.grad_fn)
[out]: None None <AddBackward0 object at 0x7fb19407b790> <AddBackward0 object at 0x7fb1938a9150> <MulBackward0 object at 0x7fb18bd21250>
动态图机制
动态计算意味着运算与搭建同时进行
。 这种机制将使得调试更加容易
,并且也使得我们将大脑中的想法转化为实际代码变得更加容易。而静态计算则意味着程序在编译执行时将先生成神经网络的结构,然后再执行相应操作。 静态计算是通过先构建好图再导入数据进行运算的方式
,之后再次运行的时候就不再需要重新构建计算图,所以速度会比动态图更快。从理论上讲,静态计算这样的机制允许编译器进行更大程度的优化,但是这也意味着你所期望的程序与编译器实际执行之间存在着更多的代沟。这也意味着,代码中的错误将更加难以发现(比如,如果计算图的结构出现问题,你可能只有在代码执行到相应操作的时候才能发现它)。