pytorch optimizer使用注意事项

最新推荐文章于 2023-12-04 10:02:00 发布

花_哥

最新推荐文章于 2023-12-04 10:02:00 发布

阅读量774

点赞数

文章标签： pytorch 机器学习深度学习

本文链接：https://blog.csdn.net/weixin_42988382/article/details/123162180

版权

                    
                    .step()函数只会对该优化器指定的参数进行更新；
zero_grad()函数也只会对当前优化器指定的参数进行梯度清零；
.step()函数并不会将梯度清空；
.forward()函数会建立动态图，但一旦backward()后就会将图清空，故对于同一批数据不能连续使用两次.backward()；但如果想得到多批数据的反向传播的梯度，并使用这些梯度一起做梯度更新，则需要多批数据分别输入后，分别做backward()；最后等backward()结束之后，再一起执行.step()函数，就可以将之前多次计算的梯度结果进行统一的更新；
如果不清空梯度的话，参数的梯度会随着数据的forward不断累加，多批次输入得到梯度，则梯度是累加关系：
  
             ∂ 
            
             ( 
            
             d 
            
             a 
            
             t 
            
              a 
             
              1 
             
             + 
            
             d 
            
             a 
            
             t 
            
              a 
             
              2 
             
             ) 
            
             ∂ 
            
             w 
            
           = 
          
             ∂ 
            
             d 
            
             a 
            
             t 
            
              a 
             
              1 
             
             ∂ 
            
             w 
            
           + 
          
             ∂ 
            
             d 
            
             a 
            
             t 
            
              a 
             
              2 
             
             ∂ 
            
             w 
            
          \frac{\partial (data^{1}+data^{2})}{\partial w} = \frac{\partial data^{1}}{\partial w} + \frac{\partial data^{2}}{\partial w} 
         
      ∂w∂(data1+data2)​=∂w∂data1​+∂w∂data2​

花_哥

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pytorch optimizer使用注意事项

.step()函数只会对该优化器指定的参数进行更新；zero_grad()函数也只会对当前优化器指定的参数进行梯度清零；.step()函数并不会将梯度清空；.forward()函数会建立动态图，但一旦backward()后就会将图清空，故对于同一批数据不能连续使用两次.backward()；但如果想得到多批数据的反向传播的梯度，并使用这些梯度一起做梯度更新，则需要多批数据分别输入后，分别做backward()；最后等backward()结束之后，再一起执行.step()函数，就可以将之前多次计算的梯.
复制链接

扫一扫