【DL】优化/元算法/BatchNormalization(批标准化)
前言
BatchNormalization算法是一种自适应重参数化的算法,其本质上不是优化算法,也不是正则化算法,但是其可以大幅度提升优化算法的性能,并且带有一定的正则化效果。
在一些训练数据很大的场景中,BatchNormaliztion的正则化功效显著,甚至可以使dropout等算法变得可有可无。但其主要还是作为一种降低网络优化难度的元算法使用。(元算法指易于嵌入其他算法的子算法)
值得注意的是,网上有博主称BN是为了降低Sigmoid和tanh的饱和给网络带来的不利影响,但事实上,这仅仅是BN顺带的红利,其使用relu,maxout,lrelu,prelu等分段线性激活函数时,依然可以大幅度降低网络优化难度(见 DeepLearning Goodfellow, 2016 \text{DeepLearning Goodfellow, 2016} DeepLearning Goodfellow, 2016)。
另外,一些文章经常会提到,BN将每层的输出强行拉回正态分布,这是一种错误的说法,并不是只有正态分布才均值为0,方差为1。虽然这个分布的均值和方差被修改了,但是其还包含更高阶的信息。否则的话每一层输出都是正态分布,浅层的网络不就失效了吗?
为什么深度神经网络难优化?
事实上,深度神经网络的优化一定程度上是基于贪心策略,对于一个多元函数 y ^ = y ^ ( Θ ) \hat{y}=\hat{y}(\Theta) y^=y^(Θ) 来说,这里的贪心主要指两点:
- 使用梯度下降法进行 θ i \theta_i θi 的更新,就是忽略掉泰勒展开的高阶项 O ( θ i 2 ) O(\theta_i^2) O(θi2) ,所以是贪心
- 每一个梯度分量 ∂ J ∂ θ i \frac{\partial{J}}{\partial{\theta_i}} ∂θi∂J 使用偏导数计算,即假设其他变量都不变,但在更新时同时更新所有的 θ i , i = 1 , 2 , . . . \theta_i,i=1,2,... θi,i=1,2,...,实际上它们都在共同变化,互相影响着。
举个例子来说
假设
h N = x w 1 w 2 . . . w N (1) h_N = xw_1 w_2...w_N \tag{1} hN=xw1w2...wN(1)
对于层 l l l 使用偏导数计算这一层的参数 w l w_l wl 的斜率得到 g l g_l g