深度学习结合论文深度了解BN操作的实质

最新推荐文章于 2023-08-10 15:38:11 发布

小鹏AI

最新推荐文章于 2023-08-10 15:38:11 发布

阅读量704

点赞数 5

分类专栏：经典网络层

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/qq_38973721/article/details/107896185

版权

Latest Tech 同时被 2 个专栏收录

84 篇文章 2 订阅 ¥299.90 ¥399.90

订阅专栏

超级会员免费看

经典网络层

5 篇文章 0 订阅

订阅专栏

BN操作主要解决深度神经网络中的内部协变量偏移问题，该问题导致高层网络不断适应新输入分布，减缓学习速度。白化操作能标准化数据分布，但计算成本高。BN通过γ和β参数在保持输入分布约束的同时，允许网络学习特征分布，加速训练并防止梯度消失。BN的正向传播和反向传播过程涉及均值、方差的计算及γ和β参数的调整。

摘要由CSDN通过智能技术生成

BN操作主要是用来解决 internal covariate shift现象。

那么什么是internal covariate shift现象呢？

Google在《Batch Normalization:Accelerating Deep Network Tradining by Reducing Internal Covariate shift》论文中曾提到过：

深度神经网络涉及到多层的叠加，而每一层的参数更新会导致上层的输入数据分布发生变化，通过层层叠加，高层的输入分布变化会非常的剧烈，这就使得高层需要不断地重新适应底层的参数更新，所以为了训练好模型，我们需要非常谨慎的去设定 lr、dropout 等参数，从而能够优化参数更新的策略。

所以， internal covariate shift现象产生的实质就是：将每一层的输入作为一个分布来看，由于底层的参数随着训练的更新，从而导致了相同的输入分布得到的输出分布就变了，如果细化到神经网络中的每一层，每轮训练时分布都是不一致的，那么相对的训练结果就得不到保障。

因此， internal covariate shift现象会导致以下几个问题：

上层网络需要不断的适应新的输入数据分布，降低了学习的速度
下层输入的变化可能趋近于变大或变小，导致上层落入饱和层，使得学习的过程中过早的停止
每层的更

了解本专栏

超级会员免费看

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小鹏AI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。