深度之眼Pytorch框架训练营第四期——权值初始化_pytorch 每次训练改变神经元个数-CSDN博客

本文链接：https://blog.csdn.net/Ikerlz/article/details/106263088

文章目录

- - 十、权值初始化

十、权值初始化

1、梯度消失与爆炸

在这里插入图片描述

上图中， $H_2 = H_1 \times W_2$ ，则 $W_2$ 的梯度为：
$\Delta W_2 = \frac{\partial{Loss}}{\partial{W_2}} = \frac{\partial{Loss}}{\partial{out}}\times\frac{\partial{out}}{\partial{H_2}}\times \frac{\partial{H_2}}{\partial{W_2}} = \frac{\partial{Loss}}{\partial{out}}\times\frac{\partial{out}}{\partial{H_2}}\times H_1$

可以看到， $W_2$ 的梯度是与 $H_1$ 相关的，而 $H_1$ 是第一层神经元的输出，因此：
$\begin{array}{l} \text { 梯度消失: } \mathrm{H}_{1} \rightarrow \mathbf{0} \qquad \Rightarrow \qquad \Delta \mathrm{W}_{2} \rightarrow \mathbf{0} \\ \text { 梯度爆炸 }: \mathrm{H}_{1} \rightarrow \infty \qquad \Rightarrow \qquad \Delta \mathrm{W}_{2} \rightarrow \infty \end{array}$

以 $H_1$ 中的第一个为例 $H_{11}$ 为例，显然， $\mathrm{H}_{11}=\sum_{i=0}^{n} X_{i} \times W_{1 i}$ ，则：
$\begin{array}{l}Var(H_{11}) = \sum_{i=0}^{n}Var(X_i)\times Var(W_{1i}) \qquad \text{这里必须有独立性假设和零均值假设}\\ = n \times (1 \times 1) = n \qquad \qquad \qquad \qquad \qquad \qquad \text{这里认为方差均为1} \end{array}$
从这里可以看出，输入的数据的方差为1，但仅仅经过了一个前向传播，方差变为了 $n$ ，标准差就变为了 $\sqrt{n}$ ，同理，如果传播到 $H_2$ ，则标准差就变为 $n$ ，因此越往后面传播，标准差越大，数据的范围也越来越大，最终超过数据可表示的范围，引发nan。如何控制神经网络中的方差呢？很简单，我们只需要让 $Var(H_1) = n\times Var(X)Var(W)=1$ 即可，那么就需要 $\frac{1}{n}$ ，即每一层传播的方差均为 $\frac{1}{n}$ ，这样就能使整个神经元的方差稳定下来。

2、Xavier方法与Kaiming方法

方差一致性：保持数据尺度维持在恰当范围，通常方差为1
针对神经网络中存在激活函数的情况，应该如何初始化以满足方差一致性？这里介绍两种初始化方法：Xavier初始化和Kaiming初始化

（1）`Xavier`方法

Xavier初始化方法是针对于饱和函数例如Sigmoid函数或者Tanh函数使用的

对于某一层神经网络，同时考虑前向传播和后向传播，则必须满足下面两个等式：
$\begin{aligned} n_i \times Var(W) = 1 \\ n_{i+1} \times Var(W ) = 1 \end{aligned}$
$n_i$ 为输入层神经元个数， $n_{i+1}为输出层神经元个数；$ 因此， $\frac{2}{n_i+n_{i+1} }$ ，通常 $X a v i e r$ 采用的是均匀分布，则设 $\sim [-a,a]$ ，根据：
$\frac{a^2}{3} = \frac{2}{n_i+n_{i+1} } \Rightarrow a = \frac{\sqrt{6}}{\sqrt{n_i+n_{i+1}}}$
因此我们得到 $W$ 的分布为： $\sim U \left[-\frac{\sqrt{6}}{\sqrt{n_i+n_{i+1}}}, \frac{\sqrt{6}}{\sqrt{n_i+n_{i+1}}} \right]$

代码实例：

（2） `Kaiming`方法

Xavier初始化方法是针对于ReLU函数及其变种

对于ReLU激活函数： $\frac{2}{n_i}$
对于ReLU变种： $\frac{2}{(1 + a^2)\times n_i}$ ， $a$ 为负半轴斜率

代码实例：

3、常用初始化方法

不良的初始化会引起输出值过大或过小，从而引发梯度爆炸或梯度消失，导致模型无法正常训练，PyTorch中提供了十种初始化方法，可分为四大类：

Xavier方法：
Xavier均匀分布
Xavier正态分布
Kaiming方法：
Kaiming均匀分布
Kaiming正态分布
常见分布初始化：
均匀分布
正态分布
常数分布
特殊矩阵初始化：
正交矩阵初始化
单位矩阵初始化
稀疏矩阵初始化

函数：nn.init.calculate_gain(nonlinearity, param=None)：

功能：计算激活函数的方差变化尺度
主要参数：
nonlinearity：激活函数名称
param：激活函数的参数，如Leaky ReLU的negative_slop
实例：

x = torch.randn(10000)
out = torch.tanh(x)

gain = x.std() / out.std()
print('gain:{}'.format(gain))

tanh_gain = nn.init.calculate_gain('tanh')
print('tanh_gain in PyTorch:', tanh_gain)


# gain:1.5982500314712524
# tanh_gain in PyTorch: 1.6666666666666667