How Does Batch Normalization Help Optimization?

最新推荐文章于 2023-02-27 17:05:36 发布

seniusen

最新推荐文章于 2023-02-27 17:05:36 发布

阅读量450

点赞数 1

分类专栏：论文笔记文章标签： BN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/seniusen/article/details/89706929

版权

论文笔记专栏收录该内容

31 篇文章 3 订阅

订阅专栏

1. 摘要

BN 是一个广泛应用的用于快速稳定地训练深度神经网络的技术，但是我们对其有效性的真正原因仍然所知甚少。

输入分布的稳定性和 BN 的成功之间关系很小，BN 对训练过程更根本的影响是：它让优化更加平滑。这种平滑让梯度更加可预测更加稳定，从而加速训练。

2. BN 和 internal covariate shift

在原始论文 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 中，作者认为 BN 减小了所谓的 internal covariate shift(ICS)，这也被认为是 BN 成功的根基。

于是，作者就做了一个实验。在有和没有 BN 的情况下分别训练了一个 VGG 网络，然后观察某一层在训练过程中的分布情况。

可以看到，加入 BN 后训练速度和准确度都有所提升，但是某一层的分布情况却相差甚微。基于此观察，作者提出了两个问题：

BN 的有效性是否真的和 ICS 有关？
BN 让输入分布稳定是否能有效减小 ICS？

接下来，我们对这两个问题问题深入探讨。

2.1. BN 的性能提升是否来源于控制 ICS

BN 的中心思想就是说控制输入分布的均值和方差可以提升训练性能，怎么才能证明吗？那我们就来看看在 BN 后面引入随机噪声会发生什么。

这里的噪声在每一次都是不一样的，所以就会使激活值产生严重的偏移，实验结果如下。

引入噪声后的 BN 相比标准网络分布更加不稳定，但是在训练过程中依然表现非常好，这显然与之前的说法冲突。

2.2. BN 是否能减小 ICS

上面的实验说明，如果我们将 ICS 和输入分布的均值及方差稳定性联系在一起的话，显然 ICS 和训练性能没有直接联系。但是，我们可能会怀疑：是否有一个对 ICS 更广泛的定义使其与训练性能有直接联系呢？如果是的话，BN 确实能减小 ICS 吗?

原论文中关于 ICS 的定义是：网络中参数的变化引起的输入分布的变化。为了衡量前面层参数的更新而导致后面参数需要调整的程度，我们来比较每一层在前面所有层参数更新前后的梯度差异。也就有了下面的定义：

这样，G 和 G’ 的差异就反映了输入的变化引起的优化环境相对于权重的变化。针对上面的定义，作者比较了有无 BN 的网络在训练过程中上述差异的变化情况，如下所示。

可以看到，配备了 BN 后，上述差异变化得反而更加剧烈，尤其是相对于没有激活函数的 DLN 网络。也即是，从优化的角度来说， BN 甚至没有减小 ICS。

3. BN 为什么有效

除了减小 ICS，BN 还有其他很多优点：防止梯度消失爆炸、对诸如学习率和参数初始化策略的不同设置比较鲁棒、防止落入激活函数的饱和区。这些特性明显都有利于训练，但是，它们都是 BN 简单的结果而不是真正底层的原因。

3.1. BN 的平滑效果

概念引入

一个函数 f 是 L-Lipschitz 的，如果它满足：

非负的实数 L 是斜率的最小上确界，称之为利普希茨常数。

也就是说，利普希茨常数限制了函数可以改变得多快。换句话说，如果没有利普希茨常数，函数可以无限快地改变，也就是不连续了。

将上式展开可以得到：

也就是固定了 x1，x2 的函数值是一个线性函数，并且被 L 约束在了一个范围内。

一个连续可微的函数是贝塔平滑的如果它的梯度满足贝塔利普希茨，也就是：

同理我们可知，贝塔平滑是限制一个函数的一阶导数变化得多快的。

作者发现，BN 的关键作用是让优化过程更加平滑，也就是，损失改变得更慢而且梯度的幅值也更小。更深层次的原因则是 BN 的重新参数化让损失函数更加利普希茨更加贝塔平滑。

引入 BN 后的损失函数就像上面的右图那样更加平滑，梯度更加可靠更加可预测，即使我们走了一大步，梯度的方向仍然是真实梯度的准确估计。

3.2. 优化过程的探索

为了展示 BN 对优化过程的稳定，作者进行了下面的实验。在训练过程中的每一步，通过移动不同的步长，我们来观察损失函数、梯度的变化情况。

可以发现，引入 BN 后损失函数、梯度以及“有效”的贝塔平滑都更加稳定。

3.3. BN 是最好的或者唯一的平滑优化过程的方法吗？

作者发现，用范数进行归一化也可以取得和 BN 类似的效果，BN 的有效可能只是一个偶然的发现。

3.4. 理论分析

针对未引入 BN 的普通网络以及引入 BN 后的网络，作者推导了它们梯度的相对关系。

引入了 BN 后，损失函数相对于激活函数值的梯度幅值更小，也即损失函数更加利普希兹。

引入了 BN 后，损失函数相对于激活函数值的二阶项幅值更小，也即损失函数更加贝塔平滑。

同理，损失函数相对于权重的梯度幅值也更小。

引入 BN 后，权重的最优解与初始解的距离也更小，也即神经网络更快就可以训练到最佳表现。

获取更多精彩，请关注「seniusen」!

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
How Does Batch Normalization Help Optimization?

1. 摘要BN 是一个广泛应用的用于快速稳定地训练深度神经网络的技术，但是我们对其有效性的真正原因仍然所知甚少。输入分布的稳定性和 BN 的成功之间关系很小，BN 对训练过程更根本的影响是：它让优化更加平滑。这种平滑让梯度更加可预测更加稳定，从而加速训练。2. BN 和 internal covariate shift在原始论文 Batch Normalization: Accel...
复制链接

扫一扫

专栏目录

seniusen CSDN认证博客专家 CSDN认证企业博客

码龄7年

249: 原创

3万+: 周排名

7035: 总排名

54万+: 访问

: 等级

7892: 积分

580: 粉丝

633: 获赞

193: 评论

1584: 收藏

私信

关注

热门文章

分类专栏

最新评论

LeetCode 103——二叉树的锯齿形层次遍历
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)增加条理清晰的目录；(3)提升标题与正文的相关性。
LeetCode 845——数组中的最长山脉
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)使用更多的站内链接。
LeetCode 386——字典序排数
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)使用更多的站内链接；(3)提升标题与正文的相关性。
LeetCode 135——分发糖果
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)增加条理清晰的目录。
LeetCode 120——三角形最小路径和
CSDN-Ada助手: 什么是一致性hash，有哪些一致性hash算法？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。