pytorch中参数更新过程（实例讲解）

失败人生自救指南

已于 2022-09-08 20:16:44 修改

阅读量3.2k

点赞数 4

文章标签： pytorch 深度学习 python

于 2022-09-08 20:14:41 首次发布

本文链接：https://blog.csdn.net/qq_43613342/article/details/126764764

版权

本文通过一个西瓜分类任务的例子，详细解释了PyTorch中参数更新的过程，包括前向传播、计算损失、反向传播和参数更新的步骤。使用自定义的模型和损失函数，展示了在PyTorch中如何实现权重和偏置的更新，并讨论了Adam优化器动态调整学习率的特点。同时，针对输出结果中的一些疑问进行了答疑，解释了梯度为0时参数不更新的原因。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我们知道在pytorch中更新参数只需要三步：

optimizer.zero_grad() //清空梯度防止累积
loss.backward()  //计算梯度
optimizer.step() //更新参数

但是随着我们学习的深入，我感到只会写这三步大致知道它的意思是不够的，而是必须知道参数更新在机器学习里面究竟是如何做的，在pytorch里面又是如何实现的。
为此，我们举一个简单的例子。
现在有一个西瓜分类任务，输入 $x=[x_1,x_2,x_3].$ 有三维，分别代表西瓜的三个特征，输出
$y=[y_1,y_2]$ 有两维，代表分别属于两个类别的概率。
为了实验的简单，假设我们的预测函数为： $y_1=w_1 x_1 + w_2x_2 + w_3x_3 +b$ 。(这里只写出 $y_1$ 的预测函数， $y_2$ 同理)
要学习的参数有 $w_1,w_2,w_3,b$ 共四个。
我们只需要定义 $loss=Fun(y_l,y_p)$ ( $y_l$ 为标签， $y_p$ 为预测值),loss分别对三个参数求导得到梯度g,要让loss变小，所以参数应该要这样更新(朝梯度的反方向更新)：
$w_1=w_1 -lr* \frac{\partial L}{\partial w_1}$
$w_2=w_2 -lr* \frac{\partial L}{\partial w_2}$
$w_3=w_3 -lr* \frac{\partial L}{\partial w_3}$
$\frac{\partial L}{\partial b}$
其中lr为学习率，决定了参数更新的速度。
下面我们看看这个过程在pytorch里面是如何进行的。
首先（根据公式）定义一个简单的模型。

import torch
from torch import  nn
import torch.nn.functional as F
class test_model(nn.Module):
    def __init__(self):
        super(test_model, self).__init__()
        self.fc1 = nn.Linear(3, 2)

    def forward(self, x):

        return self.fc1(x)

然后再定义optimizer(选用Adam),这里loss并不采用常见的交叉熵损失函数，而是自定义了一个loss为的是方便验证梯度的计算。

net = test_model()
optimizer = torch.optim.Adam(net.parameters(), lr=1.0)

input = torch.randn((1,3))
label = torch.tensor([1])

out = net(input)
loss = 1 - torch.sigmoid(out)[0][1]
for n, p in net.named_parameters():
    if n=="fc1.bias":
        print("原始bias:", p)
optimizer.zero_grad()
loss.backward()
optimizer.step()
for n, p in net.named_parameters():
    if n=="fc1.bias":
        print("fc1.bias的梯度",p.grad)
        print("更新之后的bias:", p)

输出结果如下：

原始bias: Parameter containing:
tensor([0.2146, 0.5020], requires_grad=True)
fc1.bias的梯度 tensor([ 0.0000, -0.1826])
更新之后的bias: Parameter containing:
tensor([0.2146, 1.5020], requires_grad=True)