【深度学习】Batch Normalization批标准化的理解

最新推荐文章于 2022-02-08 10:49:31 发布

houzeyu666

最新推荐文章于 2022-02-08 10:49:31 发布

阅读量223

点赞数

分类专栏：学习

本文链接：https://blog.csdn.net/houzeyu666/article/details/103580214

版权

学习专栏收录该内容

48 篇文章 2 订阅

订阅专栏

## Batch Normalization

对于深度学习中包含很多隐藏层的网络结构，在训练过程中，各层的参数再不停地发生变化，隐藏层的输入分布不会是统一不变的，所以随着网络层数的加深，训练起来会越来越困难，收敛速度会越来越慢，BN的基本思想就是让每一层的激活输入分布固定下来，也就是说在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布。

这里的相同分布其实就是让每一层隐藏层的输入变换为均值为0，方差为1的正太分布。

## BN的本质理解

BN的基本思想其实相当直观：因为深层神经网络在做非线性变换前的激活输入值（就是那个x=WU+B，U是输入）随着网络深度加深或者在训练过程中，其分布逐渐发生偏移或者变动，之所以训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近（对于Sigmoid函数来说，意味着激活输入值WU+B是大的负值或正值），所以这导致反向传播时低层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因，而BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，其实就是把越来越偏的分布强制拉回比较标准的分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，意思是这样让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。

　　对于每个隐层神经元，把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布，使得非线性变换函数的输入值落入对输入比较敏感的区域，以此避免梯度消失问题。因为梯度一直都能保持比较大的状态，所以很明显对神经网络的参数调整效率比较高，就是变动大，就是说向损失函数最优值迈动的步子大，也就是说收敛地快。

## BN的好处

①不仅仅极大提升了训练速度，收敛过程大大加快；

②还能增加分类效果，一种解释是这是类似于Dropout的一种防止过拟合的正则化表达方式，所以不用Dropout也能达到相当的效果；

③另外调参过程也简单多了，对于初始化要求没那么高，而且可以使用大的学习率等。总而言之，经过这么简单的变换，带来的好处多得很，这也是为何现在BN这么快流行起来的原因。

houzeyu666

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【深度学习】Batch Normalization批标准化的理解

##Batch Normalization 对于深度学习中包含很多隐藏层的网络结构，在训练过程中，各层的参数再不停地发生变化，隐藏层的输入分布不会是统一不变的，所以随着网络层数的加深，训练起来会越来越困难，收敛速度会越来越慢，BN的基本思想就是让每一层的激活输入分布固定下来，也就是说在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布。这里的相同分布其实...
复制链接

扫一扫