l.sum().backward()梯度反向传播时为何要加.sum()函数

最新推荐文章于 2024-04-08 19:53:50 发布

樱木之

最新推荐文章于 2024-04-08 19:53:50 发布

阅读量1.4k

点赞数 6

文章标签： python 开发语言

本文链接：https://blog.csdn.net/qq_43369406/article/details/131352560

版权

.sum()函数主要有两个作用，一个是用来求和，一个是用来降维。而在这里是用到了降维的作用。

Pytorch进行梯度的计算，只能对标量进行梯度计算，例如 $y = x^2 +x +1$ 这是一个标量，是能够进行梯度计算的，而例如 $y=[x_1, x_2]^2 +[x_1, x_2] +[1, 1]$ 这是二维的，pytorch并不能进行梯度反向传播计算梯度，所以我们需要使用sum进行降维处理，变成 $y=x_1^2 + x_2^2 +x_1+x_2 +1$ ，对于多元函数便能计算偏微分，求梯度了。

例子如下，y_hat和y是多维的，所以先要sum再backward：

X = X.reshape((1, 1, 6, 8))
Y = Y.reshape((1, 1, 6, 7))
lr = 3e-2  # Learning rate

for i in range(10):
    Y_hat = conv2d(X)
    l = (Y_hat - Y) ** 2
    conv2d.zero_grad()
    l.sum().backward()
    # Update the kernel
    conv2d.weight.data[:] -= lr * conv2d.weight.grad
    if (i + 1) % 2 == 0:
        print(f'epoch {i + 1}, loss {l.sum():.3f}')

print(conv2d.weight.data.reshape((1, 2)))

樱木之

关注

6
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
l.sum().backward()梯度反向传播时为何要加.sum()函数

函数主要有两个作用，一个是用来求和，一个是用来降维。而在这里是用到了降维的作用。这是二维的，pytorch并不能进行梯度反向传播计算梯度，所以我们需要使用。Pytorch进行梯度的计算，只能对标量进行梯度计算，例如。这是一个标量，是能够进行梯度计算的，而例如。，对于多元函数便能计算偏微分，求梯度了。
复制链接

扫一扫