神经网络使用Xavier参数初始化的本质

Axlsss

已于 2024-07-04 11:15:08 修改

阅读量1.1k

点赞数 25

分类专栏：深度学习文章标签：神经网络人工智能深度学习

于 2024-06-12 15:30:42 首次发布

本文链接：https://blog.csdn.net/weixin_41878387/article/details/139627950

版权

深度学习专栏收录该内容

16 篇文章 2 订阅

订阅专栏

本文深入探讨了Xavier参数初始化在神经网络中的作用，旨在维持正向传播和反向传播中数据流与梯度流的方差稳定性，避免梯度消失或爆炸。通过分析无偏置非线性全连接层，得出权重方差应满足的条件，以保持输入和输出的方差近似相等。

摘要由CSDN通过智能技术生成

参数初始化的意义和目的

深度学习中的各种参数初始化方法都旨在保持正向传播时数据流方差的稳定与反向传播时梯度流方差的稳定，从而缓解梯度消失或梯度爆炸问题。

先前在反向传播这篇文章里介绍过参数初始化对于深度学习的重要性，本文不再赘述。

在该文最后的例子中可以看到好的参数初始化策略确实能使神经网络的训练过程更趋稳定。在例子中，我们直接使用了一个Xavier初始化策略的标准差生成了高斯分布的权重，但没有说明这个标准差是如何得来的，本篇文章将在此基础上做个引申。

我们想使神经网络传播过程每层的数据流或梯度流输出的方差保持不变。

考虑一个非线性无偏置的简单全连接，隐藏层接受 $n_{in}$ 个输入并生成 $n_{out}$ 个输出。具体来说，输入数据为 $x$ ，共 $n_{in}$ 个特征，满足均值为0、方差为 $\gamma^2$ ；每个神经元的输出为 $o_i$ ； $w_{ij}$ 是输入 $x$ 到输出 $o_i$ 的权重，满足均值为0、方差为 $\sigma^2$ ，且假设 $x_j$ 与 $w_{ij}$ 相互独立。

对于前向传播， $o_i$ 可表示为：

$o_i=\sum_{j=1}^{n_{in}} w_{ij} x_j \ \ \ \ \ (1)$

Xavier参数初始化意图使每一层输出的方差接近其输入的方差，即要使输出 $o_i$ 的方差接近输入 $x_j$ 的方差。

$o_i$ 的均值 $E(o_i)$

由期望的定义及式 $(1)$ 可得：

$E(w_{ij})=0 \ \ \ \ \ (2)$

$E(x_j)=0 \ \ \ \ \ (3)$

$E(o_i)=\sum_{j=1}^{n_{in}} E(w_{ij} x_j) \ \ \ \ \ (4)$

因为 $x_j$ 与 $w_{ij}$ 相互独立，所以 $E(w_{ij} x_j)=E(w_{ij})E(x_j)$ ，代入式 $(4)$ 可得：
$\begin{align} E(o_i) & = \sum_{j=1}^{n_{in}} E(w_{ij} x_j) \hspace{100cm} \\ &=\sum_{j=1}^{n_{in}} E(w_{ij})E(x_j) \\ &=0 \ \ \ \ \ (5) \end{align}$

$E(w_{ij} x_j)=E(w_{ij})E(x_j)$ 的证明

以下证明当随机变量 $x 、 y$ 相互独立时， $E (x y) = E (x) E (y)$

$E (x)$ ：随机变量 $x$ 的期望；

$E (y)$ ：随机变量 $y$ 的期望；

$E (x y)$ ：随机变量 $x 、 y$ 乘积的期望。

根据期望的定义可知：
$E(x)=\sum_ix_iP(x_i) \ \ \ \ \ (6)$
$E(y)=\sum_jy_jP(y_j) \ \ \ \ \ (7)$
$E(xy)=\sum_{i,j}x_iy_jP(x_i,y_j) \ \ \ \ \ (8)$

由于 $x$ 和 $y$ 是相互独立的，有：
$P(x_i,y_j)=P(x_i)P(y_j)$

代入式 $(8)$ ，得：

$E(xy)=\sum_{i,j}x_iy_jP(x_i)P(y_j)$

由于 $x$ 和 $y$ 是独立的，我们可以将求和重新拆组一下：

$E(xy)=(\sum_{i}x_i P(x_i)) (\sum_{j} y_jP(y_j))$

由式 $(6) 、 (7)$ ，可得：
$E (x y) = E (x) E (y)$

$o_i$ 的方差 $Var(o_i)$

先来证明 $Var(o_i)=E(o_i^2)−(E(o_i))^2 \ \ \ \ \ (9)$

证明对于随机变量 $o$ ， $Var(o)=E(o^2)−(E(o))^2$

方差定义为随机变量的所有可能取值与其均值之差的平方的加权平均：

$Var(o)={\sum_i (x_i-u)^2 \over{n}}$

其中 $u$ 是均值、 $\over n$ 表示随机变量 $o$ 的每一项 $x_i$ 的概率 $p(x_i)$ ，所以也可以表示为：

$Var(o)=\sum_i (x_i-u)^2 p(x_i)=E((x_i-u)^2) \ \ \ \ \ (10)$

对于随机变量 $o$ 及其均值 $E (o) = u$ ，继续推导：
$\begin{align} Var(o) & = \sum_i(x_i−E(o))^2 P(x_i) \hspace{100cm} \\ &=\sum_i(x_i^2+E(o)^2-2x_i E(o)) P(x_i) \\ &=\sum_i x_i^2 P(x_i) + \sum_i (E(o))^2 P(x_i) - \sum_i 2x_i (E(o)) P(x_i) \\ &=\sum_i x_i^2 P(x_i) + (E(o))^2 \sum_i P(x_i) - 2(E(o)) \sum_i x_i P(x_i) \\ &=E(o^2)+(E(o))^2-2(E(o))^2 \\ &=E(o^2)-(E(o))^2 \end{align}$
其中：

$E(o)=\sum_i x_i⋅P(x_i)$

$E(o^2)=\sum_i x_i^2⋅P(x_i)$

$\sum_i P(x_i)=1$

接着式 $(9)$ 的推导：
$\begin{align} Var(o_i) & = E(o_i^2)−(E(o_i))^2 \hspace{100cm} \\ &=\sum_{j=1}^{n_{in}} E(w_{ij}^2 x_j^2)-0 \\ &=\sum_{j=1}^{n_{in}} E(w_{ij}^2) E(x_j^2) \\ &=\sum_{j=1}^{n_{in}} E((w_{ij}-0)^2) E((x_j-0)^2)\\ &=\sum_{j=1}^{n_{in}} Var(w_{ij}) Var(x_{j}) \\ &=n_{in} \sigma^2 \gamma^2 \ \ \ \ \ (11) \end{align}$
其中：

因为 $E(o_i)=0$ ，故 $E(o_i))^2=0$

类比式 $(10)$ ，且 $w_{ij}$ 的均值 $E(w_{ij})=0$ ，可得 $Var(w_{ij})=E((w_{ij}-E(w_{ij}))^2)=E((w_{ij}-0)^2)$

至此，我们已求出 $o_i$ 方差的表达式，要使输出 $o_i$ 的方差接近输入 $x_j$ 的方差，则要满足：

$n_{in} \sigma^2=1 \ \ \ \ \ (11)$

式 $(11)$ 只是前向传播过程中数据流方差不变的条件，同样需要考虑反向传播(反向传播过程和前向传播类似)的梯度流，对于同一个权重 $w_{ij}$ ，此时输出 $o$ 层变成输入层，相当于 $n_{out}$ 成了 $n_{in}$ ，可类比上述过程推导出：

$n_{out} \sigma^2=1 \ \ \ \ \ (12)$

为了同时满足式 $(11) 、 (12)$ ，只需使：

$\sigma =\sqrt{2 \over{n_{in}}+n_{out}}$

这就是使用Xavier参数初始化后权重方差应满足的条件，通常，Xavier初始化从均值为0，方差 $\sigma^2={2 \over{n_{in}+n_{out}}}$ 的高斯分布中采样权重。

再次回看文章开头所述文章反向传播里所提的例子，其所使用的标准差 $\sigma={1 \over 5}$ 正是因为权重矩阵的形状为 $n_{in}=5,n_{out}=5)$ ，而 $\sigma =\sqrt{2 \over{n_{in}}+n_{out}}={2 \over 5+5}={1 \over 5}$

另外，对于均匀分布，使用Xavier参数初始化的标准差应满足：

$\sigma =\sqrt{6 \over{n_{in}}+n_{out}}$

在pytorch中，可使用如下两个方法对权重进行Xavier初始化：

#xavier高斯分布
nn.init.xavier_normal_(w)
#xavier均匀分布
nn.init.xavier_uniform_(w)

Axlsss

关注

25
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
神经网络使用Xavier参数初始化的本质

神经网络使用Xavier参数初始化的本质
复制链接

扫一扫

专栏目录

神经网络使用Xavier参数初始化的本质

参数初始化的意义和目的

o i o_i oi​ 的均值 E ( o i ) E(o_i) E(oi​)

o i o_i oi​ 的方差 V a r ( o i ) Var(o_i) Var(oi​)

$o_i$ 的均值 $E(o_i)$

$o_i$ 的方差 $Var(o_i)$