深度学习中的He初始化

最新推荐文章于 2024-06-04 20:54:26 发布

Paul-LangJun

最新推荐文章于 2024-06-04 20:54:26 发布

阅读量6.6k

点赞数 1

分类专栏：神经网络概率与统计文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/gaoxueyi551/article/details/113853895

版权

神经网络同时被 2 个专栏收录

45 篇文章 9 订阅

订阅专栏

概率与统计

21 篇文章 0 订阅

订阅专栏

一、背景

He初始化是何凯明等提出的一种鲁棒的神经网络参数初始化方法，动机同Xaviar初始化基本一致，都是为了保证信息在前向传播和反向传播过程中能够有效流动，使不同层的输入信号的方差大致相等。

二、假设

关于参数的大部分假设同Xaviar初始化一致，但是，He初始化对应的是非线性激活函数（Relu 和 Prelu），而Xaviar初始化对应的是线性激活函数。

三、推导

以下推导所用符号均参考原论文，释义详见原文。

3.1、前向传播过程推导

首先是下式成立，利用了随机变量的独立性得出，

$\large Var[y_l]=n_lVar[w_lx_l]$

其中， n_l 表示第 l-1 层激活单元的数量，由于 w_l 和 x_l 独立，故

$\large Var[y_l]=n_lE[w_l^2x_l^2]-n_l(E[w_lx_l])^2=n_lE[w_l^2]E[x_l^2]-n_lE[w_l]^2E[x_l]^2$

若令 E[w_l]=0 ，则

$\large Var[w_l]=E[w_l^2]$

$\large Var[y_l]=n_lVar[w_l]E[x_l^2]$

若令 $w_{l-1}$ 是以0为中心的对称分布， $b_{l-1}=0$ ，则 $E[y_{l-1}]=0$ ，且 $y_{l-1}$ 以0为中心形成对称分布，则

$\large E[y^2_{l-1}]=\int_{-\infty}^{+\infty }t^2p(t)\textup{d}t=2\int_{0}^{+\infty }t^2p(t)\textup{d}t$

$\large E[x^2_l]=\int_{0}^{+\infty }t^2p(t)\textup{d}t=\frac{1}{2}E[y_{l-1}^2]$

所以有，

$\large E[x_l^2]=\frac{1}{2}E[y_{l-1}^2]-\frac{1}{2}E[y_{l-1}]^2=\frac{1}{2}E[y_{l-1}^2]$

据此有，

$\large Var[y_l]=\frac{1}{2}n_lVar[w_l]Var[y_{l-1}]$

若网络有层，则

$\large Var[y_L]=Var[y_1]\left ( \prod_{l=2}^{L}\frac{1}{2}n_lVar[w_l]\right )$

因此，合适的参数初始化应该避免使信号在前向传播过程中指数级的放大或者缩小，为此，下式应该满足，

$\large \frac{1}{2}n_lVar[w_l]=1,\ \forall l.$

因此，任意层的权重，应该按照均值为 0，且方差为 $\sqrt{\frac{2}{n_l}}$ 的高斯分布进行初始化，这样才能保证每一层的输入方差尺度一致。

输入层由于没有激活函数的参与（相当于线性激活），因此有，但是少一个 0.5 的因子对整体影响不大，因此输入层仍然和其它层采用一致的初始化。

3.2、反向传播过程推导

反向传播过程信息从后向前传递，推导过程理解起来较为困难，但是结论同前向传播基本一致，

$\large \frac{1}{2}\hat{n_l}Var[w_l]=1,\ \forall l.$

其中， $\large \hat{n_l}$ 表示第层激活单元的数量，任意层的权重 w_l ，应该按照均值为 0，且方差为 $\sqrt{\frac{2}{\hat{n_l}}}$ 的高斯分布进行初始化。

3.3、如何选择

前向传播和反向传播得出的初始化方法，按照原文的解释，任意采用一种即可。

3.4、Prelu激活函数下的推导

前面的推导均基于Relu，对于Prelu，前向传播和反向传播的权重初始化推导结果如下，其中 $\large a$ 是Prelu的调和系数，

$\large \frac{1}{2}(1+a^2)n_lVar[w_l]=1,\ \forall l.$

$\large \frac{1}{2}(1+a^2)\hat{n_l}Var[w_l]=1,\ \forall l.$

可见，不同版本的Relu变种，公式上会有细微的差别，在使用新的激活函数时，需要适时的做一些改变。

四、讨论

1、每一层权重均按照标准差0.01来初始化，容易造成靠近网络输入层的梯度发生消失，进而停止学习；

2、Xaviar初始化和He初始化没有绝对的好坏，需要在同一激活函数类型基础上进行讨论，如果采用线性激活函数、sigmod或tanh（均在0附近呈现线性趋势）时，可采用Xaviar初始化，对于Relu或Prelu，应采用He初始化；

2、对于浅层网络，He初始化和Xaviar初始化不分伯仲，但是随着深度增加，Xaviar初始化会发送梯度消失，而He初始化不受影响；

Paul-LangJun

关注

1
点赞
踩
37

收藏

觉得还不错? 一键收藏
2
评论
深度学习中的He初始化

一、背景 He初始化是何凯明等提出的一种鲁棒的神经网络参数初始化方法，动机同Xaviar初始化基本一致，都是为了保证信息在前向传播和反向传播过程中能够有效流动，使不同层的输入信号方差大致相等。二、一些假设关于参数的大部分假设同Xaviar初始化一致，但是，He初始化对应的是非线性激活函数（Relu 和 Prelu），而Xaviar初始化对应的是线性激活函数。符号假设参考原论文。三、推导 ...
复制链接

扫一扫

专栏目录