搜了一堆博客,没看见个能解释明白的。一共就两三篇原创文章,其他人抄来抄去。可以参考这两篇:添加链接描述和添加链接描述。感觉就是model.zero_grad()将全部参数梯度置0;而optimizer.zero_grad()只将自己的参数梯度置0?