pytorch使用backward()时出现'NoneType' object has no attribute 'zero_'的一种解决方法

最新推荐文章于 2024-07-24 20:32:48 发布

MaarioLu

最新推荐文章于 2024-07-24 20:32:48 发布

阅读量9k

点赞数 7

分类专栏： pytorch 文章标签： debug python

本文链接：https://blog.csdn.net/qq_44554842/article/details/104403276

版权

pytorch 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

笔者在学习使用pytorch的backward()时，发现了一个问题。原有代码是这样的

import torch
N,D_in,H,D_out = 10,1000,100,10
w1=torch.randn(D_in,H,requires_grad=True) # D_in * H
w2=torch.randn(H,D_out,requires_grad=True) # H * D_out 
ita=1e-6
x=torch.randn(N,D_in) # N * D_in 
y=torch.randn(N,D_out) # N * D_out

for t in range(500):

    #forward pass
    h=x.mm(w1) # N * H
    h_relu=h.clamp(min=0) # N * H
    y_pred=h_relu.mm(w2) # N * D_out

    #loss function
    loss=(y_pred-y).pow(2).sum()
    print(t,loss.item())
    #backward pass
    
    loss.backward()
       

    # update w1,w2

    w1=w1-ita*w1.grad
    w2=w2-ita*w2.grad
    w1.grad.zero_()
    w2.grad.zero_()

运行时出现错误：

'NoneType' object has no attribute 'zero_'

错误代码行为：w1.grad.zero_()
经分析，原因是：进行w1=w1-ita*w1.grad时，w1已由叶子节点变成了中间节点，而中间节点的grad会因为节约内存而被删除，所以w1的属性grad视为None

解决方法：在w1=w1-ita*w1.grad后添加代码w1.retain_grad()
对w2的处理同理。for内的代码块改为

for t in range(500):
#forward pass
h=x.mm(w1) # N * H
h_relu=h.clamp(min=0) # N * H
y_pred=h_relu.mm(w2) # N * D_out

#loss function
loss=(y_pred-y).pow(2).sum()
print(t,loss.item())
#backward pass

loss.backward()
   

# update w1,w2

w1=w1-ita*w1.grad
w1.retain_grad()
w2=w2-ita*w2.grad
w2.retain_grad()`

即可。此时程序能正常运行了。

而此时如果仍使用w1.grad.zero_()梯度清零，仍会报错：

'NoneType' object has no attribute 'zero_'

不知道为什么，求各位的解答…

MaarioLu

关注

7
点赞
踩
13

收藏

觉得还不错? 一键收藏
6
评论
pytorch使用backward()时出现'NoneType' object has no attribute 'zero_'的一种解决方法

笔者在学习使用pytorch的backward()时，发现了一个问题。原有代码是这样的import torchN,D_in,H,D_out = 10,1000,100,10w1=torch.randn(D_in,H,requires_grad=True) # D_in * Hw2=torch.randn(H,D_out,requires_grad=True) # H * D_out it...
复制链接

扫一扫