各位同学好,最近学习了CS231N斯坦福计算机视觉公开课,讲的太精彩了,和大家分享一下。
1. 权重初始化
1.1 相同的初始化权重
神经网络中的所有权重都能通过梯度下降和反向传播来优化和更新。现在问题来了,如果每一层的权重全部初始化为同一个常数,不同层的常数可以不一样,会发生什么呢。
这样会导致同一层的所有神经元前向传播和反向传播完全相同。
如下图,前向传播过程中,每一个隐层接收到的输入是一样的(x1,x2,...),每个隐层神经元对应每个输入神经元的权重又是相同的,那么每个隐层神经元的输出是一样的。那么它们反向传播回来的梯度肯定是一样的。
相当于隐含层只有一个节点有作用,其他隐层神经元的输入和输出都和它一样,即使有五百个神经元,也只能学习到一个神经元的特征,这和只有一个神经元没有区别。
因此,多层神经网络不能将权重初始化为同一个数,否则无法打破对称性。
1.2 过小的初始化权重
那现在给每个权重随机初始化,比如使用numpy的随机标准正态分布(均值=0,方差=1),如下,Din代表上一层的神经元个数,Dout代表本层的神经元个数。乘以0.01进行幅度缩放。
# 生产Din行Dout列的矩阵,每个元素都服从标准正态分布
w = 0.01 * np.random.randn(Din, Dout)
现在使用6层神经网络,每一层都有4096个神经元,使用双曲正切tanh激活函数(输出在-1到1之间),用直方图表示每一层的输出分布。如下图,我们发现,越往后面的层,神经元的输出就越接近于0,标准差越来越小接近0
每个神经元的输出结果:,f代表激活函数。
对Wi求偏导数:,xi代表上一层神经元的输出,由于神经元的输出越来越接近0,那么偏导数非常接近0,此时会出现梯度消失现象
正是因为较小的权重初始化,使得随着层数加深,每个神经元的输出值越来越接近0,所有值都集中在0附近,那么求偏导数之后xi趋于0,梯度会等于0,梯度消失
1.3 过大的权重初始化
那现在使用较大的权重初始化。乘以0.05进行幅度缩放。会发生什么呢
# 生产Din行Dout列的矩阵,每个元素都服从标准正态分布
w = 0.05 * np.random.randn(Din, Dout)
使用上面相同的网络结构,现在使用6层神经网络,每一层都有4096个神经元,使用双曲正切tanh激活函数(输出在-1到1之间),用直方图表示每一层的输出分布。如下图,每一层的输出都集中在饱和区(双曲正切有-1和1的饱和区)
每个神经元的输出结果:,f代表双曲正切激活函数。
对Wi求偏导数:,xi代表上一层神经元的输出,神经元的输出越来越接近-1和1;
代表双曲正切函数的导数,由于此时曲线值都处于饱和区,导数非常接近0,此时会出现梯度消失现象
1.4 Xavier 初始化方法
为了避免由于过大或者过小的初始化权重产生的问题,Xaviver 初始化方法根据输入维度来确定初始化权重,给输入维度开平方根放在分母上,作为惩罚。如果输入维度很大,那么分母就很大,权重初始化就比较小,自适应地调整权重的幅度。
在卷积神经网络中,Din代表感受野的大小,Din=kernel_size^2 * input_channels
如下图,每一层的输出既没有集中在饱和区也没有集中在0附近,均匀分布在-1到1这个区间中。而且随着层数加深,每一层的输入和输出很相似。
输入的维度越多,表示输入更繁杂变化更大,需要给一个更大的惩罚,权重初始化时的幅度就要越小。
1.5 Kaiming 初始化方法
由于 Xavier 初始化假设 w 和 x 关于0对称,并且 Xavier 初始化方法没有考虑激活函数。然而Xavier方法在ReLU方法里面就不成立了,因为ReLU激活函数输出结果都是大于等于0的。如果在ReLU中使用Xavier初始化,神经网络每层的输出结果会集中到0附近,出现梯度消失的现象。
何凯明大神在ResNet中就使用了Kaiming初始化方法解决了上述问题。
(1)Kaiming 初始化方法把 Xavier 初始化方法用在了输出关于0对称的条件下面
(2)探讨了不同的权重。如果想让输入和输出的方差相同,① 若Wij服从正态分布,权重需要满足以 0 为均值 d/2 为标准差的正太分布;② 若Wij服从均匀分布,权重需要服从 到
之间的均匀分布
如下图,这样每层输出结果,在正值区域内就不会都局限在特别小的区域或饱和区域。
2. Batch Normalization
2.1 训练阶段
现在我们希望神经网络层的中间结果服从标准正态分布,不希望输出值全都聚集到0或都集中在饱和区。将中间层的输出结果强行进行标准正态分布变换,就是Batch Normalization
现在一个batch中有N个数据,每个数据D维(D个特征)。相当于N行D列的矩阵。现在给每一列求均值,求得D个均值。也就是,求出一个batch的N个数据里面,每一个数据某一列的均值,即所有数据在某一列上的均值 。再求出所有数据再某一列上的方差
。最后对batch中的每个数据进行批归一化。其中
是非常小的数,保证分母不为0
有时强行转成标准正态分布并不好,因此引入了两个参数,,这两个参数需要在网络中学习,优化上面的批归一化结果。
最终输出结果为:
训练阶段的 Batch Normalization 的作用就是,把中间层的输出结果尽可能的拉开,使梯度尽可能的暴露出来。
2.2 测试阶段
测试阶段是一个一个数据进行测试,batch_size=1,就不存在N个数据。因此在训练过程中需要把每一批的数据的均值、标准差保存下来,最后求出一个全局的均值和标准差。在测试阶段,就用训练阶段得到的全局的均值和标准差来进行 Batch Normalization
用训练时的总均值、总方差来代替每个batch的均值、方差,其他步骤都和训练阶段相同。
2.3 在卷积神经网络中的使用
在全连接神经网络中,一批有N个数据,每个数据是D维,求出D个均值和方差。在网络中学习 (分别有D个),最后批标准化的结果为:
。每个维度单独地进行归一化后,再单独地使用这两个参数。
在卷积神经网络中,一批有N个数据,每张图片用C个卷积核,生成C个特征图,每个特征图的长宽分别是 H * W 。对每个通道都求出整个batch的均值和标准差,得到C个均值和C个标准差,然后每个通道又单独地训练出。每个通道单独地进行归一化后,再单独地使用这两个参数。
Batch Normalization 的作用
加快收敛;改善梯度(远离饱和区);使用大学习率就不会出现梯度消失的情况;对初始化不敏感;起到正则化作用。