loss.sum.backward()为什么要sum()?

最新推荐文章于 2024-03-09 15:55:38 发布

闪闪发亮的小星星

最新推荐文章于 2024-03-09 15:55:38 发布

阅读量394

点赞数

分类专栏：深度学习入门文章标签：人工智能 pytorch

本文链接：https://blog.csdn.net/weixin_39107270/article/details/132473853

版权

深度学习入门专栏收录该内容

19 篇文章 1 订阅

订阅专栏

在动手学深度学习中，这样解释的：
当y不是标量时，向量y关于向量x的导数的最自然解释是一个矩阵。对于高阶和高维的y和x，求导的结果可以是一个高阶张量。

然而，虽然这些更奇特的对象确实出现在高级机器学习中（包括深度学习中），但当调用向量的反向计算时，我们通常会试图计算一批训练样本中每个组成部分的损失函数的导数。这里，我们的目的不是计算微分矩阵，而是单独计算批量中每个样本的偏导数之和。

所以，目标是要把y编程一个标量，然后进行求导。
关于 dot(x,x) 后为标量， xx后为矩阵，xx.sum() 后为标量
在这里插入图片描述

# 对非标量调用backward需要传入一个gradient参数，该参数指定微分函数关于self的梯度。
# 本例只想求偏导数的和，所以传递一个1的梯度是合适的
x.grad.zero_()
y = x * x
# 等价于y.backward(torch.ones(len(x)))
y.sum().backward()
x.grad