【深度学习理论】(4) 权重初始化,Batch Normalization

各位同学好,最近学习了CS231N斯坦福计算机视觉公开课,讲的太精彩了,和大家分享一下。

1. 权重初始化

1.1 相同的初始化权重

神经网络中的所有权重都能通过梯度下降和反向传播来优化和更新。现在问题来了,如果每一层的权重全部初始化为同一个常数,不同层的常数可以不一样,会发生什么呢。

这样会导致同一层的所有神经元前向传播和反向传播完全相同

如下图,前向传播过程中,每一个隐层接收到的输入是一样的(x1,x2,...),每个隐层神经元对应每个输入神经元的权重又是相同的,那么每个隐层神经元的输出是一样的。那么它们反向传播回来的梯度肯定是一样的

相当于隐含层只有一个节点有作用,其他隐层神经元的输入和输出都和它一样,即使有五百个神经元,也只能学习到一个神经元的特征,这和只有一个神经元没有区别。 

因此,多层神经网络不能将权重初始化为同一个数,否则无法打破对称性。


1.2 过小的初始化权重

那现在给每个权重随机初始化,比如使用numpy的随机标准正态分布(均值=0,方差=1),如下,Din代表上一层的神经元个数,Dout代表本层的神经元个数乘以0.01进行幅度缩放。

# 生产Din行Dout列的矩阵,每个元素都服从标准正态分布
w = 0.01 * np.random.randn(Din, Dout)

现在使用6层神经网络,每一层都有4096个神经元,使用双曲正切tanh激活函数(输出在-1到1之间),用直方图表示每一层的输出分布。如下图,我们发现,越往后面的层,神经元的输出就越接近于0,标准差越来越小接近0

每个神经元的输出结果:f(\sum_{i}w_{i}x_{i}+b)f代表激活函数。

对Wi求偏导数:\frac{\partial f}{\partial w_{i}}=f'\times x_{i}xi代表上一层神经元的输出,由于神经元的输出越来越接近0,那么偏导数非常接近0,此时会出现梯度消失现象

正是因为较小的权重初始化,使得随着层数加深,每个神经元的输出值越来越接近0,所有值都集中在0附近,那么求偏导数之后xi趋于0,梯度会等于0,梯度消失


1.3 过大的权重初始化

 那现在使用较大的权重初始化乘以0.05进行幅度缩放。会发生什么呢

# 生产Din行Dout列的矩阵,每个元素都服从标准正态分布
w = 0.05 * np.random.randn(Din, Dout)

使用上面相同的网络结构,现在使用6层神经网络,每一层都有4096个神经元,使用双曲正切tanh激活函数(输出在-1到1之间),用直方图表示每一层的输出分布。如下图,每一层的输出都集中在饱和区(双曲正切有-1和1的饱和区)

每个神经元的输出结果:f(\sum_{i}w_{i}x_{i}+b)f代表双曲正切激活函数。

对Wi求偏导数:\frac{\partial f}{\partial w_{i}}=f'\times x_{i}xi代表上一层神经元的输出,神经元的输出越来越接近-1和1;f'代表双曲正切函数的导数,由于此时曲线值都处于饱和区,导数非常接近0,此时会出现梯度消失现象


1.4 Xavier 初始化方法

为了避免由于过大或者过小的初始化权重产生的问题,Xaviver 初始化方法根据输入维度来确定初始化权重给输入维度开平方根放在分母上,作为惩罚。如果输入维度很大,那么分母就很大,权重初始化就比较小,自适应地调整权重的幅度

在卷积神经网络中,Din代表感受野的大小,Din=kernel_size^2 * input_channels

如下图,每一层的输出既没有集中在饱和区也没有集中在0附近,均匀分布在-1到1这个区间中。而且随着层数加深,每一层的输入和输出很相似。

输入的维度越多,表示输入更繁杂变化更大,需要给一个更大的惩罚,权重初始化时的幅度就要越小。


1.5 Kaiming 初始化方法

由于 Xavier 初始化假设 w 和 x 关于0对称,并且 Xavier 初始化方法没有考虑激活函数。然而Xavier方法在ReLU方法里面就不成立了,因为ReLU激活函数输出结果都是大于等于0的。如果在ReLU中使用Xavier初始化,神经网络每层的输出结果会集中到0附近,出现梯度消失的现象。

何凯明大神在ResNet中就使用了Kaiming初始化方法解决了上述问题。

(1)Kaiming 初始化方法把 Xavier 初始化方法用在了输出关于0对称的条件下面

(2)探讨了不同的权重。如果想让输入和输出的方差相同① 若Wij服从正态分布,权重需要满足以 0 为均值 d/2 为标准差的正太分布;② 若Wij服从均匀分布,权重需要服从 -\sqrt{\frac{6}{d}} 到 \sqrt{\frac{6}{d}} 之间的均匀分布

如下图,这样每层输出结果,在正值区域内就不会都局限在特别小的区域或饱和区域。


2. Batch Normalization

2.1 训练阶段

现在我们希望神经网络层的中间结果服从标准正态分布,不希望输出值全都聚集到0或都集中在饱和区。将中间层的输出结果强行进行标准正态分布变换,就是Batch Normalization

现在一个batch中有N个数据,每个数据D维(D个特征)。相当于N行D列的矩阵。现在给每一列求均值,求得D个均值。也就是,求出一个batch的N个数据里面,每一个数据某一列的均值,即所有数据在某一列上的均值 \mu j。再求出所有数据再某一列上的方差 \sigma_{j}^{2}。最后对batch中的每个数据进行批归一化。其中\varepsilon是非常小的数,保证分母不为0

有时强行转成标准正态分布并不好,因此引入了两个参数,\gamma ,\beta,这两个参数需要在网络中学习,优化上面的批归一化结果。

最终输出结果为:y_{i,j} = \gamma _{j}\hat{x}_{i,j}+\beta _{j}

训练阶段的 Batch Normalization 的作用就是,把中间层的输出结果尽可能的拉开,使梯度尽可能的暴露出来。


2.2 测试阶段

测试阶段是一个一个数据进行测试,batch_size=1,就不存在N个数据。因此在训练过程中需要把每一批的数据的均值、标准差保存下来,最后求出一个全局的均值和标准差在测试阶段,就用训练阶段得到的全局的均值和标准差来进行 Batch Normalization

用训练时的总均值、总方差来代替每个batch的均值、方差,其他步骤都和训练阶段相同。


2.3 在卷积神经网络中的使用

在全连接神经网络中,一批有N个数据,每个数据是D维,求出D个均值和方差。在网络中学习 \gamma ,\beta(分别有D个),最后批标准化的结果为:y = \gamma (x-\mu )/\sigma +\beta。每个维度单独地进行归一化后,再单独地使用这两个参数。

在卷积神经网络中一批有N个数据,每张图片用C个卷积核,生成C个特征图,每个特征图的长宽分别是 H * W 。对每个通道都求出整个batch的均值和标准差,得到C个均值和C个标准差,然后每个通道又单独地训练出\gamma , \beta每个通道单独地进行归一化后,再单独地使用这两个参数。

Batch Normalization 的作用

加快收敛;改善梯度(远离饱和区);使用大学习率就不会出现梯度消失的情况;对初始化不敏感;起到正则化作用。

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

立Sir

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值