权值初始化 - Xavier和MSRA方法

最新推荐文章于 2022-07-27 14:26:57 发布

香菇不相识

最新推荐文章于 2022-07-27 14:26:57 发布

阅读量738

点赞数

分类专栏：深度学习与计算机视觉

本文链接：https://blog.csdn.net/Brook_cv/article/details/91672892

版权

权重初始化对神经网络训练至关重要，错误的初始化可能导致梯度爆炸或消失。Xavier和He初始化（MSRA）是两种有效的解决方案。Xavier初始化基于均值为0，方差保持不变的原则，适用于tanh和sigmoid激活函数。He初始化考虑了ReLU激活函数的特性，其方差为输入神经元数量的倒数。这两种方法通过控制权值的初始分布，有助于网络的稳定收敛。

摘要由CSDN通过智能技术生成

设计好神经网络结构以及loss function 后，训练神经网络的步骤如下：

初始化权值参数
选择一个合适的梯度下降算法（例如：Adam，RMSprop等）
重复下面的迭代过程：
1. 输入的正向传播
2. 计算loss function 的值
3. 反向传播，计算loss function 相对于权值参数的梯度值
4. 根据选择的梯度下降算法，使用梯度值更新每个权值参数

初始化

神经网络的训练过程是一个迭代的过程，俗话说：好的开始就是成功的一半，所以的权值参数的初始化的值对网络最终的训练结果有很大的影响。过大或者过小的初始值，对网络收敛的结果都会有不好的结果。

所有的参数初始化为0或者相同的常数

最简单的初始化方法就是将权值参数全部初始化为0或者一个常数，但是使用这种方法会导致网络中所有的神经元学习到的是相同的特征。

假设神经网络中只有一个有2个神经元的隐藏层，现在将偏置参数初始化为： $b i a s = 0$ ，权值矩阵初始化为一个常数 $\alpha$ 。网络的输入为 $x_1,x_2)$ ，隐藏层使用的激活函数为 $R e L U$ ，则隐藏层的每个神经元的输出都是 $relu(\alpha x_1 + \alpha x_2)$ 。这就导致，对于loss function的值来说，两个神经元的影响是一样的，在反向传播的过程中对应参数的梯度值也是一样，也就说在训练的过程中，两个神经元的参数一直保持一致，其学习到的特征也就一样，相当于整个网络只有一个神经元。

过大或者过小的初始化

如果权值的初始值过大，则会导致梯度爆炸，使得网络不收敛；过小的权值初始值，则会导致梯度消失，会导致网络收敛缓慢或者收敛到局部极小值。

如果权值的初始值过大，则loss function相对于权值参数的梯度值很大，每次利用梯度下降更新参数的时，参数更新的幅度也会很大，这就导致loss function的值在其最小值附近震荡。

而过小的初值值则相反，loss关于权值参数的梯度很小，每次更新参数时，更新的幅度也很小，着就会导致loss的收敛很缓慢，或者在收敛到最小值前在某个局部的极小值收敛了。

Xavier初始化

Xavier初始化，由Xavier Glorot 在2010年的论文 Understanding the difficulty of training deep feedforward neural networks 提出。
为了避免梯度爆炸或者梯度消失，有两个经验性的准则：

每一层神经元激活值的均值要保持为0
每一层激活的方差应该保持不变。

在正向传播时，每层的激活值的方差保持不变；在反向传播时，每层的梯度值的方差保持不变。

基于上述的准则，初始的权值参数 $W^l$ （ $l$ 为网络的第 $l$ 层）要符合以下公式
$\begin{aligned} W^{[l]} & \sim \mathcal{N}\left(\mu=0, \sigma^{2}=\frac{1}{n^{[l-1]}}\right) \\ b^{[l]} &=0 \end{aligned}$