1. 计算图
通过计算图的示意,我们很容易的可以理解模型参数训练的过程,这个过程很像模型的前向传播和方向传播。节点表示数据, 边表示运算.
- 叶子节点很重要,非叶子节点的梯度在计算后会被释放,以优化内存开销,当然可以使用retain_grad()保存.
1.2 计算图实例
import torch
x = torch.tensor([2.], requires_grad=True) # 创建原始数据,叶子节点
w = torch.tensor([1.], requires_grad=True)
# a = torch.add(x, w)
a = x + w
a.retain_grad() # 保留a的梯度,用于可视化,实际上a的梯度会在计算后释放
# b = torch.add(w,1)
b = w + 1
# y = torch.mul(a, b)
y = a * b
y.backward() # 反向传播,计算梯度
print(x.is_leaf, w.is_leaf, a.is_leaf, b.is_leaf, y.is_leaf)
print("w grad = %d x grad = %d a grad = %d" % (w.grad, x.grad, a.grad))
print("y grad_fn = %s b grad_fn = %s a grad_fn = %s" % (y.grad_fn, b.grad_fn, a.grad_fn))
# 输出结果如下:
True True False False False
w grad = 5 x grad = 2 a grad = 2
y grad_fn = <MulBackward0 object at 0x7f2f73311550> b grad_fn = <AddBackward0 object at 0x7f2f73311630> a grad_fn = <AddBackward0 object at 0x7f2f733115f8>
2. 动态图