P4 反向传播

重要的数据结构Tensor,包含data和grad(损失函数对权重的导数)。

  1. w是Tensor(张量类型),Tensor中包含data和grad。grad初始为None,调用l.backward()方法后w.grad为Tensor,故更新w.data时需使用w.grad.data。如果w需要计算梯度,那构建的计算图中,跟w相关的tensor都默认需要计算梯度。
    在这里插入图片描述

  2. w是Tensor, forward函数的返回值也是Tensor,loss函数的返回值也是Tensor

  3. 本算法中反向传播主要体现在,l.backward()。调用该方法后w.grad由None更新为Tensor类型,且w.grad.data的值用于后续w.data的更新。

    l.backward()会把计算图中所有需要梯度(grad)的地方都会求出来,然后把梯度都存在对应的待求的参数中,最终计算图被释放。

    取tensor中的data是不会构建计算图的。

import torch

x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]

w = torch.tensor([1.0]) # 权重的初始值是1.0
w.requires_grad = True # 需要计算梯度

def forward(x):
    return x * w # 由于w是tensor,因此x会被自动转换为tensor,构建了计算图

def loss(x, y): # 每调用一次loss就构建了计算图
    y_pred = forward(x)
    return (y_pred - y) ** 2

# 训练过程
print("predict (before training)", 4, forward(4).item())
for epoch in range(100):
    for x, y in zip(x_data, y_data):
        l = loss(x, y) # forward, compute the loss , 创建新的计算图
        l.backward() # backward,compute grad for Tensor 
                    # whose requires_grad set to True,每次会释放计算图
        print('\tgrad:',x ,y ,w.grad.item())
        w.data -= 0.01 * w.grad.data # 权重更新时,需要用到标量,注意grad也是一个tensor
        w.grad.data.zero_()
    print("progress:",epoch ,l.item())

print("predict (after training)", 4, forward(4).item())
课后作业

画出二次模型y=w1x²+w2x+b,损失函数loss=(ŷ-y)²的计算图,并且手动推导反向传播的过程,最后用pytorch的代码实现。

答:

import torch
import numpy as np 

''' 画出二次模型y=w1x²+w2x+b,损失函数loss=(ŷ-y)²的计算图,
用pytorch的代码实现。
'''

x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]

# 设置初始权值
w1 = torch.tensor([1.0])
w1.requires_grad = True #计算梯度,默认是不计算的
w2 = torch.tensor([1.0])
w2.requires_grad = True
b = torch.tensor([1.0])
b.requires_grad = True

def forward(x):
    return w1 * x**2 + w2 * x + b

def loss(x, y): # 每调用一次loss就构建了计算图
    y_pred = forward(x)
    return (y_pred - y) ** 2

# 开始训练
print('Predict (befortraining)',4,forward(4))
for epoch in range(100):
    for x, y in zip(x_data, y_data):
        l = loss(x, y)
        l.backward()
        print('\tgrad:',x ,y ,w1.grad.item(),w2.grad.item(),b.grad.item()) 
        w1.data -= 0.01 * w1.grad.data #注意这里的grad是一个tensor,所以要取他的data
        w2.data -= 0.01 * w2.grad.data
        b.data -= 0.01 * b.grad.data
        w1.grad.data.zero_() #释放之前计算的梯度
        w2.grad.data.zero_()
        b.grad.data.zero_()
    print('Epoch:',epoch,l.item())

print('Predict(after training)',4,forward(4).item())

参考博客 https://blog.csdn.net/bit452/article/details/109643481

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值