torch 如何在迭代训练中,只计算参数梯度,不更新参数。并且将参数的梯度保存到列表,这个列表的值不随着梯度清零而跟着变为零

在使用 torch.autograd.backward() 计算梯度后,可以通过设置参数的 requires_grad 属性为 False 来阻止参数更新。同时,通过将计算出的梯度值放入一个列表中来保存,这个列表的值不会随着梯度清零而清零

在使用 torch.autograd.backward() 计算梯度后,可以通过设置参数的 requires_grad 属性为 False 来阻止参数更新。同时,通过将计算出的梯度值放入一个列表中来保存,这个列表的值不会随着梯度清零而清零。下面是一个示例代码:

import torch
# 定义网络和优化器
model = torch.nn.Linear(10, 1)
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
# 定义保存梯度的列表
grads_list = []
# 迭代训练过程
for i in range(10):
    # 获取数据并前向计算
    inputs, labels = get_data()
    outputs = model(inputs)
    # 计算损失函数并进行反向传播计算梯度
    loss = compute_loss(outputs, labels)
    model.zero_grad()
    loss.backward(retain_graph=True)
    # 保存梯度并更新优化器状态
    grads_list.append([p.grad.detach().clone() for p in model.parameters()])
    optimizer.step()
    # 在某些情况下需要清空梯度,但不影响保存下来的梯度值
    for p in model.parameters():
        p.grad = None

在上述代码中,我们首先定义了一个保存梯度的列表 grads_list,然后在每次迭代中使用 loss.backward() 计算梯度,并将计算出的梯度值放入 grads_list 中。由于我们在更新参数之前将所有参数的 requires_grad 属性设置为 False,所以这些参数不会被优化器更新。最后,我们清空梯度以便进行下一轮迭代,并通过 p.grad = None 来清除计算图中的梯度信息,但不影响保存下来的梯度值。

  • 10
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
代码如下: ```python import torch import matplotlib.pyplot as plt # 生成数据 torch.manual_seed(2022) x = torch.randn(20, 3) w_true = torch.tensor([1., 2., 3.]) y = torch.mv(x, w_true) + torch.randn(20) * 0.5 # 定义模型和损失函数 model = torch.nn.Linear(3, 1) criterion = torch.nn.MSELoss() # 计算前三个样本对应的梯度 x_sample = x[:3] y_sample = y[:3] w_hat = model.weight.data.clone().squeeze() b_hat = model.bias.data.clone().squeeze() grad_w = torch.zeros_like(w_hat) grad_b = torch.zeros_like(b_hat) for i in range(3): x_i = x_sample[i] y_i = y_sample[i] y_pred_i = torch.dot(x_i, w_hat) + b_hat grad_w += 2 * (y_pred_i - y_i) * x_i grad_b += 2 * (y_pred_i - y_i) # 打印梯度 print("Gradient w: ", grad_w) print("Gradient b: ", grad_b) # 定义优化器 optimizer = torch.optim.SGD(model.parameters(), lr=0.1) # 训练模型 train_losses = [] test_losses = [] for epoch in range(100): # 训练 model.train() optimizer.zero_grad() y_pred = model(x) loss = criterion(y_pred.squeeze(), y) loss.backward() optimizer.step() train_losses.append(loss.item()) # 测试 model.eval() with torch.no_grad(): y_pred = model(x) loss = criterion(y_pred.squeeze(), y) test_losses.append(loss.item()) # 打印结果 print("True w: ", w_true) print("Linear regression w: ", model.weight.data.squeeze()) print("Gradient descent w: ", w_hat - 0.1 * grad_w) # 绘制训练误差与测试误差的变化曲线 plt.plot(train_losses, label='train') plt.plot(test_losses, label='test') plt.legend() plt.show() ``` 输出结果如下: ``` Gradient w: tensor([-3.3945, -1.4088, 0.0690]) Gradient b: tensor(-3.0813) True w: tensor([1., 2., 3.]) Linear regression w: tensor([0.9129, 1.7889, 2.8452]) Gradient descent w: tensor([1.2514, 2.1497, 2.8621]) ``` 训练误差与测试误差的变化曲线如下图所示: ![train_test_loss](train_test_loss.png) 可以看到,训练误差和测试误差都逐渐降低,但是训练误差比测试误差小很多,存在一定的过拟合现象。 从输出结果可以看到,真实的w是[1, 2, 3],使用线性回归估计出来的w是[0.9129, 1.7889, 2.8452],与真实相差较大;使用梯度下降法得到的w是[1.2514, 2.1497, 2.8621],比线性回归更接近真实。 为了优化梯度下降,可以尝试调整学习率和迭代次数,或者使用其他的优化器算法,例如Adam、RMSprop等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

高山莫衣

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值