Week4【任务1】第一节总结：权值初始化_初始权值是在newlvq中设置吗-CSDN博客

本文链接：https://blog.csdn.net/weixin_39236489/article/details/115365346

1.梯度消失与爆炸

$\mathrm{H}_{2}=\mathrm{H}_{1} * \mathrm{W}_{2}$

$\begin{aligned} \Delta W_{2} &=\frac{\partial L o s s}{\partial W_{2}}=\frac{\partial L o s s}{\partial o u t} \times \frac{\partial o u t}{\partial H_{2}} \times \frac{\partial H_{2}}{\partial w_{2}} \\ &=\frac{\partial L o s s}{\partial o u t} \times \frac{\partial o u t}{\partial H_{2}} \times H_{1} \end{aligned}$

这里我们用损失函数针对权重的求导作为例子进行分析(对输出的求导可以参考另一篇博文)：

梯度消失： $\mathrm{H}_{1} \rightarrow \mathbf{0} \Rightarrow \Delta \mathrm{W}_{2} \rightarrow \mathbf{0}$

梯度爆炸： $\mathrm{H}_{1} \rightarrow \infty \quad \Rightarrow \Delta \mathrm{W}_{2} \rightarrow \infty$

可见，如果某一层的输出值接近于0或者接近无穷，就会产生梯度消失或者梯度爆炸

在这里插入图片描述

在统计学总我们有：

$\begin{aligned} E(X \times Y)&=E(X) \times E(Y)\\ D(X)&=E\left(X^{2}\right)-[E(X)]^{2}\\ D(X+Y)&=D(X)+D(Y)\\ \Rightarrow D(X \times Y)&=D(X) \times D(Y)+D(X) \times [E(Y)]^{2}+D(Y) \times [E(X)]^{2} \end{aligned}$
if $E (X) = 0, E (Y) = 0$ , $\times Y)=D(X) \times D(Y)$

把第一层隐藏层的第一个神经元作为例子，我们有： $\mathrm{H}_{11}=\sum_{i=0}^{n} X_{i} \times W_{1 i}$

如果我们让X和W的分布是标准正态分布，输入数据方差是1：
$\begin{aligned} D\left(H_{11}\right) &=\sum_{i=0}^{n} D\left(X_{i}\right) \times D\left(W_{1 i}\right) \\ &=\mathrm{n} \times(1 \times 1) \\ &=\mathrm{n}\\ \Rightarrow &\operatorname{std}\left(H_{11}\right)=\sqrt{D\left(H_{11}\right)}=\sqrt{n} \end{aligned}$
也就是说，在经过第一层神经网络的处理后，一个隐藏层神经元的输出的数值范围就扩大了 $\sqrt{n}$ 倍！这里的 $n$ 是网络层输入的维度。

因此，为了保持层与层之间的输出方差维持在一个常数范围，最好的办法就是让节点输出的方差为1，因为方差为1，无论多少层变换后，方差仍为1。为了让一层网络层输出节点的方差为常数1，我们应该让W的标准差是 $\sqrt{1/n}$ ，即：
$D\left(H_{1}\right)=n \times D(X) \times D(W)=1\\ D(W)=\frac{1}{n} \Rightarrow \operatorname{std}(\mathrm{W})=\sqrt{\frac{1}{n}}$
也就是让W的方差等于 $1 / n$

方差一致性：保持数据尺度维持在恰当范围内，通常方差为1

激活函数：

饱和函数，如sigmoid，tanh。综合考虑前向后向传播，针对某一隐藏层，假设输入节点数是 $n_i$ ，输出结点数是 $n_{i+1}$ , 应该有

$\begin{array}{l} n_{i} \times D(W)=1 \\ n_{i+1} \times D(W)=1 \\ \Rightarrow D(W)=\dfrac{2}{n_{i}+n_{i+1}} \end{array}$

假设W的分布满足 $\sim U[-\boldsymbol{a}, \boldsymbol{a}]$ , 我们有：
$\begin{aligned} &W \sim \boldsymbol{U}[-\boldsymbol{a}, \boldsymbol{a}]\\ &D(W)=\dfrac{(-a-a)^{2}}{12}=\dfrac{(2 a)^{2}}{12}=\dfrac{a^{2}}{3}\\ &\frac{2}{n_{i}+n_{i+1}}=\dfrac{a^{2}}{3} \Rightarrow a=\dfrac{\sqrt{6}}{\sqrt{n_{i}+n_{i+1}}}\\ &\Rightarrow \quad W \sim U\left[-\dfrac{\sqrt{6}}{\sqrt{n_{i}+n_{i+1}}}, \dfrac{\sqrt{6}}{\sqrt{n_{i}+n_{i+1}}}\right] \end{aligned}$

ReLu及其变种。针对relu及其变种函数，可以把负半轴的斜率设定为 $a$

$\begin{array}{l} D(W)=\dfrac{2}{n_{i}} \\ D(W)=\dfrac{2}{\left(1+a^{2}\right) * n_{i}} \\ \operatorname{std}(W)=\sqrt{\dfrac{2}{\left(1+a^{2}\right) * n_{i}}} \end{array}$