批归一化(Batch Normalization)

最新推荐文章于 2024-05-23 12:49:04 发布

zjz_xn

最新推荐文章于 2024-05-23 12:49:04 发布

阅读量206

点赞数

分类专栏：神经网络文章标签： batch 开发语言

原文链接：https://www.cnblogs.com/shona/p/12181061.html

版权

神经网络专栏收录该内容

31 篇文章 3 订阅

订阅专栏

本文探讨了BatchNormalization在深度学习中的优势，如提高学习率、减少dropout、降低L2衰减和取消LRN，从而加快训练速度并改善泛化能力。它通过标准化每一层和维度的尺度，简化参数调整，使模型更加稳健。

摘要由CSDN通过智能技术生成

在这里插入图片描述

此算法的优势：

(1) 可以使用更高的学习率。如果每层的scale不一致，实际上每层需要的学习率是不一样的，同一层不同维度的scale往往也需

要不同大小的学习率，通常需要使用最小的那个学习率才能保证损失函数有效下降，Batch Normalization将每层、每维的scale

保持一致，那么我们就可以直接使用较高的学习率进行优化。

(2) 移除或使用较低的dropout。 dropout是常用的防止overfitting的方法，而导致overfit的位置往往在数据边界处，如果初始化权重

就已经落在数据内部，overfit现象就可以得到一定的缓解。论文中最后的模型分别使用10%、5%和0%的dropout训练模型，与之前

的40%-50%相比，可以大大提高训练速度。

(3) 降低L2权重衰减系数。还是一样的问题，边界处的局部最优往往有几维的权重（斜率）较大，使用L2衰减可以缓解这一问题，

现在用了Batch Normalization，就可以把这个值降低了，论文中降低为原来的5倍。

(4) 取消Local Response Normalization层。由于使用了一种Normalization，再使用LRN就显得没那么必要了。而且LRN实际上

也没那么work。

(5) 减少图像扭曲的使用。由于现在训练epoch数降低，所以要对输入数据少做一些扭曲，让神经网络多看看真实的数据。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
批归一化(Batch Normalization)

此算法的优势：(1) 可以使用更高的学习率。如果每层的scale不一致，实际上每层需要的学习率是不一样的，同一层不同维度的scale往往也需要不同大小的学习率，通常需要使用最小的那个学习率才能保证损失函数有效下降，Batch Normalization将每层、每维的scale保持一致，那么我们就可以直接使用较高的学习率进行优化。(2) 移除或使用较低的dropout。 dropout是常用的防止overfitting的方法，而导致overfit的位置往往在数据边界处，如果初始化权重就...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。