目录
参考文章:(133条消息) PyTorch 深度学习实践 第4讲_错错莫的博客-CSDN博客
参考视频:04.反向传播哔哩哔哩bilibili
反向传播算法
回顾第二讲
深度学习就是通过不断训练通过损失值对权重的求导更新权重。
反向传播
forward和backward
前馈和反向传播
Tensor可以保存数据,包含data和grad两部分,分别存放权重的值,和损失值与权重的导数
课堂例题
课堂练习1
课堂练习2
用pytorch实现反向传播
1.导入库
import torch
2.设置训练集
x_data=[1.0, 2.0, 3.0]
y_data=[2.0, 4.0, 6.0]
w = torch.Tensor([1.0]) #创建一个tensor类型的w
w.requires_grad=True #计算梯度
3.定义模型
def forward(x):
return x*w #w是一个tensor类型,所以整个返回值都是tensor类型
4.定义损失函数(调用loss函数,自动构建计算图)
def loss(x, y):
y_pred = forward(x)
return (y_pred - y)**2
5.训练过程
print("predict (before training)", 4, forward(4).item())
for epoch in range(100):
for x, y in zip(x_data, y_data):
l=loss(x, y)#前馈过程,计算loss,l是一个张量,即tensor是一个计算图。
l.backward() #每进行一次反向传播把计算图释放,下次循环前馈规程再生成
print('\tgrad:',x, y, w.grad.item())
w.data = w.data - 0.01 * w.grad.data #梯度grad也是一个张量,权重更新直接对数值data进行操作,并不是对tensor进行操作。并没有重新创建计算图
#如果用张量直接进行运算的话,他会不停的生成计算图,导致存储空间占满。
w.grad.data.zero_() #清零
print("progress:",epoch,l.item())#取出loss使用l.item,不要直接使用l(l是tensor会构建计算图)
print("predict (after training)", 4, forward(4).item())
注意:
-
1.w是Tensor(张量类型),Tensor中包含data和grad,data和grad也是Tensor。grad初始为None,调用l.backward()方法后w.grad为Tensor,故更新w.data时需使用w.grad.data。如果w需要计算梯度,那构建的计算图中,跟w相关的tensor都默认需要计算梯度。
-
2.w是Tensor, forward函数的返回值也是Tensor,loss函数的返回值也是Tensor。
-
3.本算法中反向传播主要体现在,l.backward()。调用该方法后w.grad由None更新为Tensor类型,且w.grad.data的值用于后续w.data的更新。 l.backward()会把计算图中所有需要梯度(grad)的地方都会求出来,然后把梯度都存在对应的待求的参数中,最终计算图被释放。 取tensor中的data是不会构建计算图的。
课后作业
###导入对应的库
import torch
### 设置训练集
x_data = [1.0,2.0,3.0]
y_data = [2.0,4.0,6.0]
w1 = torch.Tensor([1.0])#初始权值
w1.requires_grad = True#计算梯度,默认是不计算的
w2 = torch.Tensor([1.0])
w2.requires_grad = True
b = torch.Tensor([1.0])
b.requires_grad = True
### 学习模型
def forward(x):
return w1 * x**2 + w2 * x + b
### 定义损失函数
def loss(x,y):#构建计算图
y_pred = forward(x)
return (y_pred-y) **2
### 模型训练
print('Predict (befortraining)',4,forward(4))
for epoch in range(100):
l = loss(1, 2)#为了在for循环之前定义l,以便之后的输出,无实际意义
for x,y in zip(x_data,y_data):
l = loss(x, y)
l.backward()
print('\tgrad:',x,y,w1.grad.item(),w2.grad.item(),b.grad.item())
w1.data = w1.data - 0.01*w1.grad.data #注意这里的grad是一个tensor,所以要取他的data
w2.data = w2.data - 0.01 * w2.grad.data
b.data = b.data - 0.01 * b.grad.data
w1.grad.data.zero_() #释放之前计算的梯度
w2.grad.data.zero_()
b.grad.data.zero_()
print('Epoch:',epoch,l.item())
print('Predict(after training)',4,forward(4).item())