动手学深度学习之如何理解param.grad / batch_size（详细讲解）

原创已于 2023-09-28 13:42:12 修改

· 2.8k 阅读

33 ·

版权

文章标签：

#深度学习 #pytorch #python #param.grad

于 2023-02-09 19:44:50 首次发布

深度学习同时被 2 个专栏收录

38 篇文章

订阅专栏

pytorch

10 篇文章

订阅专栏

文章通过一个示例解释了在PyTorch中如何实现小批量随机梯度下降算法，强调了`torch.no_grad()`的作用以及参数更新时为什么要除以batch_size，指出这确保了即使batch_size变化，平均梯度仍保持一致。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

def sgd(params, lr, batch_size):  #@save
    """小批量随机梯度下降"""
    with torch.no_grad():  # 被该语句wra 起来的部分将不会跟踪梯度
        for param in params:
            param -= lr * param.grad / batch_size
            param.grad.zero_()

这个问题我看到论坛也有人在问，但是大神回答说自己跑一遍代码就会了，我想这个东西只可意会，不可言传，于是我动手算了一波，这次算是真正理解了。

为了方便各位学习，我就把计算过程展示在这里，大家就不用自己去苦思冥想了。

这里先写一个示例：

import torch

X = torch.tensor([[1.0, 2.0], [2.0, 3.0], [3.0, 4.0]])
w = torch.tensor([[1.0], [2.0]], dtype=torch.float32, requires_grad=True)
b = torch.tensor([0.0], requires_grad=True)
y = torch.tensor([[0.0], [1.0], [2.0]])

y_hat = torch.matmul(X, w) + b
l = (y_hat - y)**2 / 2
l.sum().backward()

print(w.grad)
print(b.grad)

运行结果是：

tensor([[46.],
        [67.]])
tensor([21.])

计算过程如下：（公式计算部分，感谢评论区一位朋友的纠正）

从上图计算过程可以看出，params.grad 其实是batch中所有样本的grad总和，所以这个时候除以batch_size就是相当于取一个平均值，这样就算下一次传入的batch_size改变了，最后也不会影响得到的平均数。