反向传播(back propagation)
使用pytorch框架不需要自己去手动求导,框架中自带求导的工具,我们可以通过反向传播将梯度往回传播。通常有二个过程,forward和backward。
下图是反向传播的整体计算图.
下面的例子是通过pytorch框架,实现对x=4时,y=?的预测,前馈计算预测值,反馈不断更新w值,最后得到训练模型的参数w的值,并算出预测值。
本程序与上一节的区别是,不需要定义计算梯度的函数,直接通过pytorch框架中的张量,自动构建计算图,实现反向传播,计算梯度。(更加方便了)
1、调用pytorch框架,创建张量w,求解动态计算图(dynamic computational graph)。
import torch
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]
w = torch.tensor([1.0]) # w的初值为1.0
w.requires_grad = True # 需要计算梯度
2、定义前馈和损失值的函数。损失是单个样本的损失值。
#前馈算预测值
def forward(x):
return x * w # w是一个Tensor,返回值是张量
#算损失值
def loss(x, y):
y_pred = forward(x)
return (y_pred - y) ** 2
3、训练100轮,在训练过程中权重w通过动态计算图不断更新,并且要记住更新之后要将梯度重置为全零张量。
print("predict (before training)", 4, forward(4).item())
#训练100轮
for epoch in range(100):
for x, y in zip(x_data, y_data):
l = loss(x, y) # l是一个张量,tensor主要是在建立计算图 forward, compute the loss 1、算损失
l.backward() # backward,compute grad for Tensor whose requires_grad set to True 2、进行反向传播
print('\tgrad:', x, y, w.grad.item())
w.data = w.data - 0.01 * w.grad.data # 权重更新时,注意grad也是一个tensor
w.grad.data.zero_() # after update, remember set the grad to zero
print('progress:', epoch, l.item()) # 取出loss使用l.item,不要直接使用l(l是tensor会构建计算图)
print("predict (after training)", 4, forward(4).item())
程序执行后显示的部分数据和最终的预测结果:损失值不断减少,预测值逐渐接近真实值。
总结:训练的整体过程,前馈(forward)算损失,反馈(l.backward)算梯度,(更新)用梯度下降法更新权重(w.data = w.data - 0.01 * w.grad.data)。