pytorch中batch normalisation的注意事项

最新推荐文章于 2024-08-11 14:23:55 发布

周博士

最新推荐文章于 2024-08-11 14:23:55 发布

阅读量2.7k

点赞数 2

分类专栏：深度学习文章标签： pytorch 批归一 batch normalization

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huntstart/article/details/79786582

版权

深度学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

torch中的各种批归一的注意事项，不间断更新20190122

含有batchnorm的网络其train和eval时效果差距大

亦可参考笔者的另一篇博文：Pytorch 深度学习模型训练断点继续训练时损失函数恶化或与断点差异较大

和是否zero_grad及其位置关系不大，因为这个错了，train是多半不收敛的。
主要是因为BN的输入随着训练的进行是时变的，非稳态的，除非训练完全收敛，且学习率很小，并进行了多个batch的训练，此时的running mean 和running var才会收敛到正确的值。
如果BN的动量为0.1，那么需要多训练的batch数我认为至少是20，即0.9**20=0.1214，也就是说20个batch前的训练数据在running mean和var中所占比重约十分之一。
建议：当需要用eval运作网络时，最好先以train模式进行多个batch的前向传播，用于稳定running mean和var。

torch.nn.BatchNorm2d

输入4D的矩阵，NxCxHxW
C维度取Ci时可计算得到MEANi和VERi，分别是改通道对应的均值和方差
可见该批归一化过程是通道间独立的。
所以，如果batch中N=1也是可以正常运作的，这点区别于最早的批归一文章。

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pytorch中batch normalisation的注意事项

torch中的各种批归一的注意事项，不间断更新20180402含有batchnorm的网络其train和eval时效果差距大和是否zero_grad及其位置关系不大，因为这个错了，train是多半不收敛的。主要是因为BN的输入随着训练的进行是时变的，非稳态的，除非训练完全收敛，且学习率很小，并进行了多个batch的训练，此时的running mean 和running var才会收...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。