【DL】优化/元算法/BatchNormalization（批标准化）

布莱雅王子

于 2021-08-22 13:09:06 发布

阅读量221

点赞数 1

分类专栏： DL 文章标签：机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lwh1023443389/article/details/119849545

版权

本文探讨了BatchNormalization(BN)在深度学习优化中的作用，解释了为何BN能降低网络优化难度，以及其背后的数学原理。BN通过削弱各层权重间的相互依赖，改善了梯度下降过程中的问题，提高了训练效率。同时，文中提到了BN的缺点——降低网络表示能力，以及通过γ和β参数补偿的解决方案。

摘要由CSDN通过智能技术生成

【DL】优化/元算法/BatchNormalization（批标准化）

前言
为什么深度神经网络难优化？
为什么加入BN之后可以降低优化难度？
加入BN层的缺陷以及改进方法
总结

前言

BatchNormalization算法是一种自适应重参数化的算法，其本质上不是优化算法，也不是正则化算法，但是其可以大幅度提升优化算法的性能，并且带有一定的正则化效果。

在一些训练数据很大的场景中，BatchNormaliztion的正则化功效显著，甚至可以使dropout等算法变得可有可无。但其主要还是作为一种降低网络优化难度的元算法使用。（元算法指易于嵌入其他算法的子算法）

值得注意的是，网上有博主称BN是为了降低Sigmoid和tanh的饱和给网络带来的不利影响，但事实上，这仅仅是BN顺带的红利，其使用relu，maxout，lrelu，prelu等分段线性激活函数时，依然可以大幅度降低网络优化难度（见 $\text{DeepLearning Goodfellow, 2016}$ ）。

另外，一些文章经常会提到，BN将每层的输出强行拉回正态分布，这是一种错误的说法，并不是只有正态分布才均值为0，方差为1。虽然这个分布的均值和方差被修改了，但是其还包含更高阶的信息。否则的话每一层输出都是正态分布，浅层的网络不就失效了吗？

为什么深度神经网络难优化？

事实上，深度神经网络的优化一定程度上是基于贪心策略，对于一个多元函数 $\hat{y}=\hat{y}(\Theta)$ 来说，这里的贪心主要指两点：

使用梯度下降法进行 $\theta_i$ 的更新，就是忽略掉泰勒展开的高阶项 $O(\theta_i^2)$ ，所以是贪心
每一个梯度分量 $\frac{\partial{J}}{\partial{\theta_i}}$ 使用偏导数计算，即假设其他变量都不变，但在更新时同时更新所有的 $\theta_i,i=1,2,...$ ，实际上它们都在共同变化，互相影响着。

举个例子来说
假设
$h_N = xw_1 w_2...w_N \tag{1}$
对于层 $l$ 使用偏导数计算这一层的参数 $w_l$ 的斜率得到 $g_l$

最低0.47元/天解锁文章

布莱雅王子

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【DL】优化/元算法/BatchNormalization（批标准化）

【DL】优化/元算法/BatchNormalization（批标准化）前言为什么深度神经网络难优化？为什么加入BN之后可以降低优化难度？加入BN层的缺陷以及改进方法总结前言BatchNormalization算法是一种自适应重参数化的算法，其本质上不是优化算法，也不是正则化算法，但是其可以大幅度提升优化算法的性能，并且带有一定的正则化效果。在一些训练数据很大的场景中，BatchNormaliztion的正则化功效显著，甚至可以使dropout等算法变得可有可无。但其主要还是作为一种降低网络优化难度的元
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。