目录
3、手动推导线性模型 y=w*x+b,损失函数loss=(ŷ-y)²下,当数据集x=1,y=2的时候,反向传播的过程
4、 画出二次模型y=w1x²+w2x+b,损失函数loss=(ŷ-y)²的计算图,并且手动推导反向传播的过程,最后用pytorch的代码实现
1、前向传播和反向传播流程图
- 前向传播中构建计算图计算loss
- 后向传播中求出每个位置的梯度更新梯度
2、使用tensor实现后向传播
import torch
w = torch.tensor([1.0]) # w的初值为1.0
w.requires_grad = True # 需要计算梯度
def forward(x):
"""
:param x: w是一个Tensor,意味着w是一个在深度学习中用于表示参数或权重的张量,所以在计算过程中 * 会被重载,所以会将非张量的 x 自动转化为张量,再与 w 进行相乘
:return: x * w 构建计算图的输入,返回计算图 x * w 的输出张量结果
"""
return x * w
def loss(x, y):
"""
:param x: 样本数据
:param y: 样本数据
:return: 每调用一次 loss 函数,动态地构建一次计算图(前向传播构建计算图,最后得到计算损失),返回最后得到的损失,得到的损失是一个张量
y_pred 和 y 即使不是张量也会转化为张量
"""
y_pred = forward(x)
return (y_pred - y) ** 2
def model(x_data,y_data):
"""
:param x_data: 样本数据
:param y_data: 样本数据
:return: None
"""
print("predict (before training)", 4, forward(4).item())
for epoch in range(100):
sum = 0
for x, y in zip(x_data, y_data):
"l 是一个张量,tensor主要是在建立计算图 forward, compute the loss,得到的 l 是一个张量"
l = loss(x, y)
"backward,compute grad for Tensor whose requires_grad set to True"
"后向传播中张量 l 调用成员函数backward(),自动求出来计算图中所有需要梯度的地方把梯度求出来,然后会把计算出来的所有梯度保存在唯以定义的变量 w 中"
"backward()调用完之后计算图就会被释放,下一次 for 循环会重新构建计算图得到 loss 函数进行反向传播计算梯度。释放的原因是由于每一次进行反向传播的时候,计算图可能不一样,所以要释放当前的计算图"
l.backward()
"w.grad.item() 是将一个张量变成标量,防止产生计算图"
print('\tgrad:', x, y, w.grad.item())
"tensor 中的grad也是一个张量,所以要是直接使用 w.grad 进行梯度值更新,就是在构建计算图,但是这个操作中我们只需要取值计算,而不需要构建计算图。构建计算图是在前向传播中进行"
w.data = w.data - 0.01 * w.grad.data
"只能是 l.item 而不能是 l ,如果是 l,就是在动态地构建计算图,因为 l 是一个张量"
sum += l.item
"必须将权重 w 中的梯度全部清零"
w.grad.data.zero_()
" 取出loss值,使用l.item,不要直接使用l(l是tensor会构建计算图)"
print('progress:', epoch, l.item())
print("predict (after training)", 4, forward(4).item())
if __name__ == "__main__":
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]
model(x_data, y_data)
3、手动推导线性模型 y=w*x+b,损失函数loss=(ŷ-y)²下,当数据集x=1,y=2的时候,反向传播的过程
4、 画出二次模型y=w1x²+w2x+b,损失函数loss=(ŷ-y)²的计算图,并且手动推导反向传播的过程,最后用pytorch的代码实现
代码实现
import numpy as np
import matplotlib.pyplot as plt
import torch
"初始权值"
w1 = torch.Tensor([1.0])
"计算梯度,默认是不计算的"
w1.requires_grad = True
w2 = torch.Tensor([1.0])
w2.requires_grad = True
b = torch.Tensor([1.0])
b.requires_grad = True
def forward(x):
return w1 * x**2 + w2 * x + b
def loss(x,y):
y_pred = forward(x)
return (y_pred-y) **2
def model(x_data,y_data):
print('Predict (befortraining)', 4, forward(4))
for epoch in range(100):
for x,y in zip(x_data,y_data):
l = loss(x, y)
l.backward()
print('\tgrad:',x,y,w1.grad.item(),w2.grad.item(),b.grad.item())
"注意这里的grad是一个tensor,所以要取他的data"
w1.data = w1.data - 0.01*w1.grad.data
w2.data = w2.data - 0.01 * w2.grad.data
b.data = b.data - 0.01 * b.grad.data
"释放之前计算的梯度"
w1.grad.data.zero_()
w2.grad.data.zero_()
b.grad.data.zero_()
print('Epoch:',epoch,l.item())
print('Predict(after training)',4,forward(4).item())
if __name__ == "__main__":
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]
model(x_data, y_data)