深度学习中的He初始化

一、背景

    He初始化是何凯明等提出的一种鲁棒的神经网络参数初始化方法,动机同Xaviar初始化基本一致,都是为了保证信息在前向传播和反向传播过程中能够有效流动,使不同层的输入信号的方差大致相等。

 

二、假设

    关于参数的大部分假设同Xaviar初始化一致,但是,He初始化对应的是非线性激活函数(Relu 和 Prelu),而Xaviar初始化对应的是线性激活函数

 

三、推导

       以下推导所用符号均参考原论文,释义详见原文。

       3.1、前向传播过程推导

       首先是下式成立,利用了随机变量的独立性得出,

    \large Var[y_l]=n_lVar[w_lx_l]

其中,n_l 表示第 l-1 层激活单元的数量,由于 w_l 和 x_l 独立,故

    \large Var[y_l]=n_lE[w_l^2x_l^2]-n_l(E[w_lx_l])^2=n_lE[w_l^2]E[x_l^2]-n_lE[w_l]^2E[x_l]^2

若令 E[w_l]=0,则

    \large Var[w_l]=E[w_l^2]

    \large Var[y_l]=n_lVar[w_l]E[x_l^2]

若令  w_{l-1} 是以0为中心的对称分布,b_{l-1}=0,则 E[y_{l-1}]=0,且 y_{l-1} 以0为中心形成对称分布,则

    \large E[y^2_{l-1}]=\int_{-\infty}^{+\infty }t^2p(t)\textup{d}t=2\int_{0}^{+\infty }t^2p(t)\textup{d}t

    \large E[x^2_l]=\int_{0}^{+\infty }t^2p(t)\textup{d}t=\frac{1}{2}E[y_{l-1}^2]

所以有,

    \large E[x_l^2]=\frac{1}{2}E[y_{l-1}^2]-\frac{1}{2}E[y_{l-1}]^2=\frac{1}{2}E[y_{l-1}^2] 

据此有,

    \large Var[y_l]=\frac{1}{2}n_lVar[w_l]Var[y_{l-1}]

若网络有 L 层,则

    \large Var[y_L]=Var[y_1]\left ( \prod_{l=2}^{L}\frac{1}{2}n_lVar[w_l]\right )

因此,合适的参数初始化应该避免使信号在前向传播过程中指数级的放大或者缩小,为此,下式应该满足,

    \large \frac{1}{2}n_lVar[w_l]=1,\ \forall l.

因此,任意层的权重 w_l,应该按照均值为 0,且方差为 \sqrt{\frac{2}{n_l}} 的高斯分布进行初始化,这样才能保证每一层的输入方差尺度一致。

输入层由于没有激活函数的参与(相当于线性激活),因此有 n_1Var[w_1]=1 ,但是少一个 0.5 的因子对整体影响不大,因此输入层仍然和其它层采用一致的初始化。

 

    3.2、反向传播过程推导

反向传播过程信息从后向前传递,推导过程理解起来较为困难,但是结论同前向传播基本一致,

    \large \frac{1}{2}\hat{n_l}Var[w_l]=1,\ \forall l.

其中, \large \hat{n_l} 表示第 l 层激活单元的数量,任意层的权重 w_l,应该按照均值为 0,且方差为 \sqrt{\frac{2}{\hat{n_l}}} 的高斯分布进行初始化。

 

    3.3、如何选择

        前向传播和反向传播得出的初始化方法,按照原文的解释,任意采用一种即可。

 

    3.4、Prelu激活函数下的推导

        前面的推导均基于Relu,对于Prelu,前向传播和反向传播的权重初始化推导结果如下,其中 \large a 是Prelu的调和系数,

        \large \frac{1}{2}(1+a^2)n_lVar[w_l]=1,\ \forall l.

        \large \frac{1}{2}(1+a^2)\hat{n_l}Var[w_l]=1,\ \forall l.

可见,不同版本的Relu变种,公式上会有细微的差别,在使用新的激活函数时,需要适时的做一些改变。

 

四、讨论

1、每一层权重均按照标准差0.01来初始化,容易造成靠近网络输入层的梯度发生消失,进而停止学习;

2、Xaviar初始化和He初始化没有绝对的好坏,需要在同一激活函数类型基础上进行讨论,如果采用线性激活函数、sigmod或tanh(均在0附近呈现线性趋势)时,可采用Xaviar初始化,对于Relu或Prelu,应采用He初始化;

2、对于浅层网络,He初始化和Xaviar初始化不分伯仲,但是随着深度增加,Xaviar初始化会发送梯度消失,而He初始化不受影响;

  • 1
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值