Xavier初始化

最新推荐文章于 2024-04-21 21:45:36 发布

我是一片小树叶

最新推荐文章于 2024-04-21 21:45:36 发布

阅读量1.1w

点赞数 8

分类专栏：机器学习基础文章标签： Xavier

机器学习基础专栏收录该内容

12 篇文章 0 订阅

订阅专栏

转载：https://blog.csdn.net/victoriaw/article/details/73000632

本文介绍一下深度学习参数初始化问题中耳熟能详的参数初始化方法——Xavier（发音[‘zeɪvɪr]）初始化。

大家应该感觉到一般的深度学习文章上来就是实验，告诉读者这个实验结果好，然后由实验结果再反向给出一些无从验证的可能对可能不对的原因。而这篇文章虽然整体来看比较简单，但结构非常严谨：首先通过实验分析标准初始化方法的问题；然后根据两个目标—— 状态方差和梯度方差保持不变 推导出参数的特点，给出Xavier初始化方法的具体形式；最后通过实验验证Xavier初始化的效果确实不错。

在开始阅读下面的内容之前，我们需要牢记参数初始化的目的是为了让神经网络在训练过程中学习到有用的信息，这意味着参数梯度不应该为0。而我们知道在全连接的神经网络中，参数梯度和反向传播得到的状态梯度以及入激活值有关——激活值饱和会导致该层状态梯度信息为0，然后导致下面所有层的参数梯度为0；入激活值为0会导致对应参数梯度为0。所以如果要保证参数梯度不等于0，那么参数初始化应该使得各层激活值不会出现饱和现象且激活值不为0。

我们把这两个条件总结为参数初始化条件：

初始化必要条件一：各层激活值不会出现饱和现象。
初始化必要条件二：各层激活值不为0。

需要说明的是这篇论文只研究了解决分类问题的5层的全连接神经网络，每个隐层的神经元个数为1000，并且仅探讨了三种激活函数：sigmoid、tanh、softsign。

标准初始化方法

把权重矩阵初始化为如下形式：
在这里插入图片描述
其中U[−a,a]是区间(−a,a)上的均匀分布，n是入神经网络的大小。易知

在深入介绍标准初始化之前，首先给出随机变量方差的两个性质：

假设随机变量X和随机变量Y相互独立，则有
在这里插入图片描述
假设随机变量X和随机变量Y相互独立，且E(X)=E(Y)=0，则有

神经网络的隐层状态计算表达式：

其中

激活值计算表达式：

论文中的符号和我的有些区别：论文中用z表示激活值，s表示状态值。我这里按自己的习惯来写。

现在把输入x的每一维度xx看做一个随机变量，并且假设E(x)=0，Var(x)=1。假设W和x相互独立，则隐层状态的方差为
在这里插入图片描述
可以看出标准初始化方法得到一个非常好的特性：隐层的状态的均值为0，方差为常量1/3，和网络的层数无关，这意味着对于sigmoid函数来说，自变量落在有梯度的范围内。

但是因为sigmoid激活值都是大于0的，会导致下一层的输入不满足E(⋅)=0。其实标准初始化也只适用于满足下面将要提到的Glorot假设的激活函数，比如tanh。

激活值和梯度特性实验

初始化后的激活值和梯度特性

首先下面以tanh神经网络为例，查看激活值和梯度的分布情况。

各层激活值直方图如下：
在这里插入图片描述
可以看出，激活值的方差逐层递减，这可以通过把公式(2)带入公式(15)进行解释。

各层反向传播的梯度（关于状态的梯度）的分布情况：
在这里插入图片描述

状态的梯度在反向传播过程中越往下梯度越小（因为方差越来越小）。这可以用公式(2)代入(16)进行解释。

各层参数梯度的分布情况：
在这里插入图片描述
参数梯度的方差和层数基本无关，这可以通过公式公式(2)代入(17)进行解释。另外这幅图应该和后面会出现的Xavier初始化对应的图作比较，会发现各层的标准初始化参数梯度小了一个数量级，可以通过公式(2)(20)和公式(17)进行解释。

训练过程中的激活值特性

作者探究了三种激活函数对应的神经网络在训练过程中各层激活值的分布情况，得到下面的结果图。

sigmoid神经网络在每层的激活值均值和标准偏差在训练过程中的演变情况
在这里插入图片描述
这幅图比较有意思的是Layer 4的激活值在训练开始没多久就变成0（均值为0并且方差为0说明大多数激活值都为0），即进入饱和状态；而在最后又慢慢跳出饱和状态。

为什么会出现这种现象呢？读者可以自己想一想。在原论文中有作者给的解释。

tanh神经网络和sofsign神经网络在训练过程中每层激活值的分布情况
在这里插入图片描述
可以看到在tanh神经网络中第一层最先饱和，然后是后面各层按顺序出现饱和。softsign神经网络中饱和现象并不严重，而且各层差不多同时出现饱和情况。

作者提到出现这种现象的原因有待于探究。

训练完成后的激活值特性

训练完成后tanh神经网络和softsign神经网络各层的激活值的直方图
在这里插入图片描述
tanh神经网络的低层出现了饱和现象：-1和1对应的神经元非常多。

Xavier初始化

在文章开始部分我们给出了参数初始化的必要条件。但是这两个条件只保证了训练过程中可以学到有用的信息——参数梯度不为0。而Glorot认为：优秀的初始化应该使得各层的激活值和状态梯度的方差在传播过程中的方差保持一致：
在这里插入图片描述
我们把这两个条件称为Glorot条件。

在某些假设下反向传播梯度和参数梯度表达式

首先给出关于状态的梯度和关于参数的梯度的表达式：
在这里插入图片描述
我们做如下假设：

输入的每个特征方差一样：Var(x)；
激活函数对称：这样就可以假设每层的输入均值都是0；
f′(0)=1；
初始时，状态值落在激活函数的线性区域：f′(Si(k))≈1。
后三个都是关于激活函数的假设，我们称为Glorot激活函数假设。

于是：
在这里插入图片描述
对于一个d层的网络，由公式(10)可以推出：

由公式(11)(12)(13)可以推出：

我们考虑一种简单的网络：如果现在令所有层的大小一样并且对所有层采用相同的初始化方式，那么有：

由(15)(16)(17)可以看出激活值方差和层数相关，反向传播的梯度方差和层数是有关系的，而参数梯度的方差和层数无关。

前面也提到了这可以解释各层反向传播梯度的状态分布与各层参数梯度的状态分布中出现的现象。

公式(16)对应原文的公式(13)，原文中的公式(13)应该是有误的。

满足Glorot条件的初始化

为了满足公式(8)(9)，结合公式(12)(13)，我们将Glorot条件转换成：
在这里插入图片描述
作者取均值来同时满足(17)(18)：

这个方差对应如下均匀分布：

简单网络：
现在假设各层的大小一样，则由公式(19)可知各层的参数方差一样：

把(20)代入公式(15)(16)可以很容易看出，激活值的方差和层数无关，反向传播梯度的方差和层数无关。在这个简单的网络中，Xavier初始化确实保证了Glorot条件。