pytorch中损失函数有一个参数reduction,它有3个选项分别是none,mean,sum,在学习过程中我产生了一个疑问,这三个参数对于训练有什么影响,在反向传播的时候难道根据batch自动求平均了吗?
经过查找了一些回答,我得到了一个还算满意的答案,接下来先看两段代码:
参数为mean
net=nn.Linear(10,10)
x=torch.randn(10,10)
y=torch.randn(10,10)
loss=nn.MSELoss(reduction='mean')
out=net(x)
l=loss(out,y)
l.backward()
print(net.weight.grad.abs().sum())
# tensor(7.2299)
结果为7.2299
参数为sum
net.zero_grad()
loss=nn.MSELoss(reduction='sum')
out=net(x)
l=loss(out,y)
l.backward()
print(net.weight.grad.abs().sum())
# tensor(722.9887)
结果为722.9887
由此看到在反向传播时并不会自动根据batch求平均,而是就这么水灵灵的求出来了,sum得出的答案正好是mean*batch。
那么为什么会这样呢?
首先reduction=“sum“可以看到最后结果是与batch size有关的,也就是说我们设置learning rate的时候与batch size的大小有很大的关系,意味着梯度下降时需要的learning rate要基于batch size来考虑。
而reduction=“mean“则没有考虑这个的必要。
至于”none“,则是给深度学习工作者更多的灵活性,以便于对于loss做更多的自定义的设计。