Batch Normalization —— 加速深度神经网络收敛利器

最新推荐文章于 2025-03-25 19:23:09 发布

Woolseyyy

最新推荐文章于 2025-03-25 19:23:09 发布

阅读量4k

点赞数

分类专栏：深度神经网络计算机视觉文章标签：神经网络加速

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Woolseyyy/article/details/74712946

版权

Batch Normalization通过减少内部协变量偏移，有效加速深度神经网络的训练过程，允许使用更高学习率，降低dropout比例，减少L2权重衰减。其基本思想是在每个批次数据送入激活函数前进行标准化处理，结合可训练的缩放和平移参数以保持非线性。尽管存在理论争议，但实验效果显著，已在实践中广泛采用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Batch Normalization

Batch Normalization 提出自《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》。其效果主要是加速网络收敛速度，并简化超参数的调节。

论文中列举的优势如下：

可以使用更高的学习率。如果每层的scale不一致，实际上每层需要的学习率是不一样的，同一层不同维度的scale往往也需要不同大小的学习率，通常需要使用最小的那个学习率才能保证损失函数有效下降，Batch Normalization将每层、每维的scale保持一致，那么我们就可以直接使用较高的学习率进行优化。
移除或使用较低的dropout。 dropout是常用的防止overfitting的方法，而导致overfit的位置往往在数据边界处，如果初始化权重就已经落在数据内部，overfit现象就可以得到一定的缓解。论文中最后的模型分别使用10%、5%和0%的dropout训练模型，与之前的40%-50%相比，可以大大提高训练速度。
降低L2权重衰减系数。还是一样的问题，边界处的局部最优往往有几维的权重（斜率）较大，使用L2衰减可以缓解这一问题，现在用了Batch Normalization，就可以把这个值降低了，论文中降低为原来的5倍。
取消Local Response Normalization层。由于使用了一种Normalization，再使用LRN就显得没那么必要了。而且LRN实际上也没那么work。
减少图像扭曲的使用。由于现在训练e

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。