RuntimeError: grad can be implicitly created only for scalar outputs的原因:Pytorch不支持对张量的求导

一、背景介绍

原则上,Pytorch不支持对张量的求导,即如果z是张量的话,需要先将其转为标量。

浏览了很多博客,给出的解决方案都是说在求导时,加一个torch.ones_like(z)的参数。

下面给出一个实例来分析一下torch.ones_like(z)的作用。简而言之,torch.ones_like(z)相当于在对z进行求导时,对z中的元素进行求和操作,从而将其转为一个标量,便于后续的求导。

二、实例分析

▶代码1:

# 参考链接:
# https://blog.csdn.net/qq_39208832/article/details/117415229
# https://www.cnblogs.com/peixu/p/13201093.html
# https://zhuanlan.zhihu.com/p/83172023
# https://blog.csdn.net/weixin_45021364/article/details/105194187
# https://zhuanlan.zhihu.com/p/407043909
# https://blog.csdn.net/shyjhyp11/article/details/121743803
# https://www.zhihu.com/question/39523290
import torch

x = torch.tensor(3.,requires_grad=True)
p = torch.ones(2,2,requires_grad=True)

y = x*x
z = 2*y+2*p*p

z.backward(torch.ones_like(z))

print(x.grad)
print(p.grad)
# print(y.grad) # backward()无法对非叶子节点求导

# 知识点汇总:
# 原则上,Pytorch不支持对张量的求导,即如果z是张量的话,需要先将其转为标量。
# 就这个例子来说,z.backward(torch.ones_like(z))中的torch.ones_like(z)相当于在对z进行求导时,对z中的元素进行了求和操作,从而将其转为一个标量。

在这里插入图片描述

▶代码2:

import torch

x = torch.tensor(3.,requires_grad=True)
p = torch.ones(2,2,requires_grad=True)

y = x*x
z = 2*y+2*p*p

# z = z.sum() # 与下面的torch.sum(z)作用相同,即z中所有元素的和。
z = torch.sum(z)
z.backward()

print(x.grad)
print(p.grad)

在这里插入图片描述

通过对比上述两个代码,可以看到,下面两种写法是等效的,即torch.ones_like(z)参数相当于对z中的元素进行了求和操作。

  • z.backward(torch.ones_like(z))
  • z = torch.sum(z)
    z.backward()

关于上述代码的求导过程大家可以参考下图:

在这里插入图片描述

▶代码3:

上面对张量z的处理是通过 求和 操作将其转为标量的,实际上,也可以通过 求均值 的形式将其转为标量,代码如下:

import torch

x = torch.tensor(3.,requires_grad=True)
p = torch.ones(2,2,requires_grad=True)

y = x*x
z = 2*y+2*p*p

z = z.mean() # z中所有元素的均值
z.backward()

print(x.grad)
print(p.grad)

在这里插入图片描述

写到这里,我好像就悟了为什么Pytorch中的交叉熵损失nn.CrossEntropyLoss()默认对batch中的n个样本的交叉损失求均值了!

我们知道,对于一个batch的数据来说,每个样本都有一个交叉熵损失,即该批数据的交叉熵损失是一个张量,但Pytorch是无法对张量进行求导的,因此必须对其进行转换。根据我们上面的代码展示,可知,我们可以通过对张量z进行求和或求均值的操作将其转为一个标量。

那么,为什么nn.CrossEntropyLoss()默认是对该批数据的交叉熵损失求均值呢?

大家可以仔细对比一下上述的代码展示,且不论张量z对张量p求导的合理性,就标量x来说,对z求均值后再对x求导的结果明显比对z求和后再对x求导的结果合理很多。由于深度学习中神经网络需要更新的参数即权重和偏置都属于标量,因此,选择对z求均值后再对权重/标量求导更合适。

当然,这都是我自己联想的,也不知道对不对。大家也可以思考一下,欢迎交流~

  • 20
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
Python中,当使用自动微分库(如PyTorch)计算梯度时,只能为标量输出创建梯度。如果尝试为非标量输出创建梯度,就会出现"RuntimeError: grad can be implicitly created only for scalar outputs"的错误。这是因为在计算梯度时,需要将输出值与标量进行比较,以计算梯度的变化情况。 关于您提到的动手学深度学习中的MLP(多层感知机),我无法直接回答您的问题,因为您的问题中没有提到与此相关的具体内容。但是,根据您引用的内容,我可以看到您正在讨论梯度计算和使用PyTorch的情况。 为了使用MLP,您需要定义MLP的结构(包括层数、每层的神经元数量等),并且使用PyTorch的相关功能进行实现。然后,您可以通过向前传播输入,并通过损失函数计算损失。接下来,使用自动微分功能计算梯度,并使用优化算法(如随机梯度下降)更新模型的参数。这样,您就可以训练MLP模型并进行预测。 如果您有具体的问题或需要更详细的解释,请提供更多细节,以便我可以更好地帮助您。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [【深度学习】日常笔记7](https://blog.csdn.net/qq_45732909/article/details/131380169)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [Python RuntimeError: thread.__init__() not called解决方法](https://download.csdn.net/download/weixin_38630358/12877726)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [RuntimeError: grad can be implicitly created only for scalar outputs的原因Pytorch支持张量的...](https://blog.csdn.net/qq_40968179/article/details/127973793)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

信小海

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值