为什么要使用 zero_grad()？

最新推荐文章于 2023-09-21 22:38:27 发布

马鹏森

最新推荐文章于 2023-09-21 22:38:27 发布

阅读量1.9w

点赞数 5

分类专栏： python基础

本文链接：https://blog.csdn.net/weixin_43135178/article/details/115188863

版权

关键词由CSDN通过智能技术生成

50 篇文章 15 订阅

订阅专栏

有两种方式直接把模型的参数梯度设成0：

model.zero_grad()
optimizer.zero_grad() # 当optimizer=optim.Optimizer(model.parameters())时，两者等效

如果想要把某一Variable的梯度置为0，只需用以下语句：

Variable.grad.data.zero_()

另外Pytorch 为什么每一轮batch需要设置optimizer.zero_grad：？

根据pytorch中的backward()函数的计算，当网络参量进行反馈时，梯度是被积累的而不是被替换掉；
但是在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积，因此这里就需要每个batch设置一遍zero_grad 了。

另外，如果不是处理每个batch清除一次梯度，而是两次或多次再清除一次，相当于提高了batch_size，对硬件要求更高，更适用于需要更高batch_size的情况。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注