我们今天来思考一个深度学习里很重要的部分—反向传播(Back Propagation)。
如图是一个很复杂的神经网络模型,而如果我们要计算(𝜕𝑙𝑜𝑠𝑠)/(𝜕𝜔)的结果时,就会变得很复杂,而这时就需要反向传播,其实它的核心内核就是链式法则。
我们以下图的模型为例:
首先我们先进行前向传播:
接下来我们就可以开始反向传播:
下图为线性模型的计算图:
在PyTorch中,张量(Tensor)是构建动态计算图的重要组成部分。它包含数据和梯度,分别存储节点和梯度损失的值。
以下是相关的代码:
import torch
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]
w = torch.Tensor([1.0])
w.requires_grad = True
def forward(x):
return x * w
def loss(x, y):
y_pred = forward(x)
return (y_pred - y) ** 2
print("predict (before training)", 4, forward(4).item())
for epoch in range(100):
for x, y in zip(x_data, y_data):
l = loss(x, y)
l.backward()
print('\tgrad:', x, y, w.grad.item())
w.data = w.data - 0.01 * w.grad.data
w.grad.data.zero_()
print("progress:", epoch, l.item())
print("predict (after training)", 4, forward(4).item())
对于下面这一行代码:如果需要自动分级机制,则必须将Tensor的元素变量require_grad设置为True。
反向传播,计算将require_grad设置为True的Tensor的梯度:
0.01可以被成为学习率,是一个人为设置的超参数:
注意:由于.backward()计算的grad将被累积。因此,更新后设置为零
以下是我们的实验结果: