神经网络的可训练参数初始化

电器爆破专家

已于 2023-12-04 09:32:44 修改

阅读量379

点赞数

分类专栏： # 神经网络文章标签：神经网络深度学习

于 2022-10-16 17:18:08 首次发布

本文链接：https://blog.csdn.net/A_fearless_engineer/article/details/127212033

版权

神经网络专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文章目录

Xavier
He

如果我们没有亲手搭建神经网路就可能不会思考一个问题：可训练参数应该初始化为什么值呢？对于偏置我们可以将其初始化为 $0$ 或 $1$ ，那权重怎么办呢？按照程序员的经验：遇事不决，直接初始化为 $0$ ！事实上，权重是不能初始化为 $0$ 甚至是常数的。
假设我们将权重值全部初始化为同一个常数，偏置初始化为 $1$ 。当一个样本传入输入层，由于权重相同，导致第一个隐层各神经元的输入加权和是相同的，又由于阈值相同，传入激活函数的值也是相同，那么激活函数的输出也必然是相同的，此时该层所有神经元都表示一个相同的函数。同理可得其它层中同一层的神经元的输出都是相同的。那么在反向传播时，同一层的神经元得到的偏导数值也是相同的，因而同一层神经元的可训练参数的更新也是相同的。所以，尽管各层都有很多神经元，但现在它们的效果等效于每层仅有一个神经元。基于以上，权值是断然不能初始化为同一个常数的。
我们避免常数，可以为权重赋予一个随机数。但新的问题又来了，我们应当按照什么样的规则去选取随机数？随机数有范围限制吗？随机数的数学期望有限制吗？随机数的方差有限制吗？这些就是接下来的内容需要讨论的问题。

Xavier

本方法来自 Xavier Glorot、Yoshua Bengio 在 2010 年被会议 AISTATS 录用的论文《Understanding the difficulty of training deep feedforward neural networks》，所以本方法被称为 Xavier 算法或 Glorot 算法。有趣的是，AISTATS 是 CCF C 类会议，而这篇论文在参数初始化方面地位却很高。
作者在文中基于三个假设对随机数应满足的方差做了推导。笔者将在下文中做出推导，可能与论文中的推导过程有些许差异，但都得出了同样的结果。我们先将推导需要的三个假设列举出来：

各层的输入值独立同分布且数学期望为零；各层的权重值独立同分布且数学期望为零；权重值与输入值相互独立。
不同层输入值的方差都是相等的。
激活函数在原点处中心对称（这有助于让下一层的输入值的数学期望为零）且在原点处的导数值为 $1$ 。

我们对推导过程中使用到的符号作出如下说明：

设本神经网络层有 $n$ 个输入，有 $m$ 个神经元。
设 $x_i$ 表示第 $i$ 个输入， $y_j$ 表示第 $j$ 个神经元的输出， $w_{j, i}$ 表示第 $j$ 个神经元对第 $i$ 个输入所配置的权重， $b_j$ 表示第 $j$ 个神经元的偏置。
记 $\sum_{i=1}^n{w_{j, i} \cdot x_i} + b_j = s_j$ ，将激活函数记作 $A$ ，损失值记作 $\ell$ 。

推导正向传播的方差约束条件
$\mathrm{Var}(s_j)= \mathrm{Var} \left( \sum_{i=1}^{n}{w_{j,i} \cdot x_i + b_j} \right) \quad j = 1, 2, \cdots, m$ 因为初始化时我们将所有偏置初始化为同一常数，所以此处可近似将 $b_j$ 看作一个常数，则有：
$\mathrm{Var}(s_j)= \mathrm{Var} \left( \sum_{i=1}^{n}{w_{j,i} \cdot x_i} \right) \quad j = 1, 2, \cdots, m$ 充分使用第一条假设，则有：
$\begin{aligned} \mathrm{Var}(s_j) &= \sum_{i=1}^{n}{\mathrm{Var} (w_{j,i} \cdot x_i )} & j = 1, 2, \cdots, m \\ &= n \cdot \mathrm{Var} (w_{j,i} \cdot x_i ) & j = 1, 2, \cdots, m & \quad i = 1, 2, \cdots, n \end{aligned}$ 使用方差公式，则有：
$\frac{1}{n} \cdot \mathrm{Var}(s_j) = \mathrm{Var} (w_{j,i} \cdot x_i ) = \mathbb{E}\left( w_{j, i}^2 \cdot x_i^2 \right) - \mathbb{E}( w_{j, i} \cdot x_i )^2 \quad j = 1, 2, \cdots, m \quad i = 1, 2, \cdots, n$ 根据第一条假设权重值与输入值二者是相互独立的，则有：
$\begin{aligned} \frac{1}{n} \cdot \mathrm{Var}(s_j) &= \mathbb{E}\left( w_{j, i}^2 \right) \mathbb{E}\left( x_i^2 \right) - \mathbb{E}(w_{j, i})^2\mathbb{E}(x_i)^2 & j = 1, 2, \cdots, m \quad i = 1, 2, \cdots, n \\ &=\left[\mathrm{Var}(w_{j,i})+\mathbb{E}(w_{j, i})^2\right]\left[ \mathrm{Var}(x_i) + \mathbb{E}(x_i)^2\right] - \mathbb{E}(w_{j, i})^2\mathbb{E}(x_i)^2 & j = 1, 2, \cdots, m \quad i = 1, 2, \cdots, n \\ &= \mathrm{Var}(w_{j,i})\mathrm{Var}(x_i)+\mathrm{Var}(w_{j,i})\mathbb{E}(x_i)^2 + \mathrm{Var}(x_i)\mathbb{E}(w_{j, i})^2 & j = 1, 2, \cdots, m \quad i = 1, 2, \cdots, n \end{aligned}$ 根据第一条假设可得 $\mathbb{E}(x_i)=0=\mathbb{E}(w_{j, i})$ ，则有：
$\frac{1}{n} \cdot \mathrm{Var}(s_j) = \mathrm{Var}(w_{j,i})\mathrm{Var}(x_i) \quad j = 1, 2, \cdots, m \quad i = 1, 2, \cdots, n$ 由于输入激活函数的值大都集中在 $0$ 附近，根据第三条假设可以近似得出 $A(s_j)=s_j$ ，则有：
$\frac{1}{n} \cdot \mathrm{Var}(y_j) = \mathrm{Var}(w_{j,i})\mathrm{Var}(x_i) \quad j = 1, 2, \cdots, m \quad i = 1, 2, \cdots, n$ 本层神经元的输出也就是下一层神经元的输入，根据第二条假设，则有：
$\cdot \mathrm{Var}(w_{j,i}) = 1 \quad j = 1, 2, \cdots, m \quad i = 1, 2, \cdots, n$
推导反向传播的方差约束条件
$\mathrm{Var} \left( \frac{\partial \ell}{\partial x_i} \right) = \mathrm{Var} \left( \sum_{j=1}^m{\frac{\partial \ell}{\partial y_j} \cdot A'(s_j) \cdot w_{j,i}} \right) \quad i = 1, 2, \cdots, n$ 根据第三条假设可以近似得出：
$\mathrm{Var} \left( \frac{\partial \ell}{\partial x_i} \right) = \mathrm{Var} \left( \sum_{j=1}^m{\frac{\partial \ell}{\partial y_j} \cdot w_{j,i}} \right) \quad i = 1, 2, \cdots, n$ 将第一条假设推广到反向传播中，并使用上文中类似的推导过程可以得出：
$\mathrm{Var} \left( \frac{\partial \ell}{\partial x_i} \right) = m \cdot \mathrm{Var} \left( \frac{\partial \ell}{\partial y_j} \right) \cdot \mathrm{Var} ( w_{j,i} ) \quad j = 1, 2, \cdots, m \quad i = 1, 2, \cdots, n$ 将第二条假设推广到反向传播中，则有：
$\cdot \mathrm{Var}(w_{j,i}) = 1 \quad j = 1, 2, \cdots, m \quad i = 1, 2, \cdots, n$
方差的最终约束
由于正向传播与反向传播得出的约束条件不同，作者作出了以下调和：
$\cdot \mathrm{Var}(w_{j,i}) = 2 \quad j = 1, 2, \cdots, m \quad i = 1, 2, \cdots, n$ 调和后的表达式为：
$\mathrm{Var}(w_{j,i}) = \frac{2}{m + n} \quad j = 1, 2, \cdots, m \quad i = 1, 2, \cdots, n$ 结合第一条假设中对权重值提出的同分布和数学期望为 $0$ 的要求，当选用正态分布和均匀分布来为权重产生随机数时，分别应满足：
$w_{j,i} \, \stackrel{iid}{\sim} \, N \left( 0, \, \sqrt{\frac{2}{m+n}} \right) \quad j = 1, 2, \cdots, m \quad i = 1, 2, \cdots, n$ $w_{j,i} \, \stackrel{iid}{\sim} \, U \left( -\sqrt{\frac{6}{m+n}}, \, \sqrt{\frac{6}{m+n}} \right) \quad j = 1, 2, \cdots, m \quad i = 1, 2, \cdots, n$
第一条假设很难在神经网络模型中完全实现，因为在概率论中 ‘独立’ 是一个很强的约束条件，只能说这是我们提出的一个理想条件。批标准化（Batch Normalization，BN）可以实现对输入值的规范化，从而将第二条假设变为现实。能够满足第三条假设的激活函数目前仅有 tanh，事实上 Xavier 就是基于 tanh 作出了上述推导，所以 Xavier 算法在使用 tanh 的网络上表现最佳。

He

本方法来自中国科学家何恺明等在 2015 年撰写的论文《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》，所以本方法被称为 He 算法、Kaiming 算法或 MSRA 算法（何恺明在微软亚洲研究院 MSRA 时期与同事合作了该论文）。
我们知道 ReLU 显然不满足上文中的第三条假设，所以 Xavier 算法在使用 ReLU 的网络上表现较差。为了解决该问题，何恺明提出了 He 算法来为 ReLU 及其变种 Leaky ReLU 进行初始化。我们修改三个假设如下：

各层的输入值独立同分布；各层的权重值独立同分布且数学期望为零；权重值与输入值相互独立。
不同层送入激活函数的值的方差都是相等的。这条假设实际上与 Xavier 的第二条假设是等价的，因为送入激活函数的值方差相等，所以经过相同的激活函数变换后的激活函数输出值，其方差也是相等的。又因为激活函数的输出就是下一层的输入，所以各层输入值的方差是相等的。
送入激活函数的值满足以零为中心的对称分布。
激活函数为 PReLU，其在 x 轴负半段的斜率为 $a$ 。

我们在各符号右上角增加新符号 $[l]$ 用于标记其属于第几层，如 $w_{j,i}^{[l]}$ 表示第 $r$ 层网络层中第 $j^{[l]}$ 个神经元为第 $i^{[l]}$ 个输入所配置的权重。此外，我们使用符号 $p_\Box$ 表示 $\Box$ 的概率密度函数。

应用当前的假设结合上文中的推导过程，下式当前仍然成立：
$\frac{1}{n^{[l]}} \cdot \mathrm{Var} \left(s_j^{[l]} \right) = \mathrm{Var} \left(w_{j,i}^{[l]} \right)\mathrm{Var} \left(x_i^{[l]} \right)+\mathrm{Var} \left(w_{j,i}^{[l]} \right)\mathbb{E} \left(x_i^{[l]} \right)^2 + \mathrm{Var} \left(x_i^{[l]} \right)\mathbb{E} \left(w_{j, i}^{[l]} \right)^2 \quad j^{[l]} = 1, 2, \cdots, m^{[l]} \quad i^{[l]} = 1, 2, \cdots, n^{[l]}$ 根据第一条假设可得 $\mathbb{E}(w_{j, i}^{[l]})=0$ ，则有：
$\begin{aligned} \frac{1}{n^{[l]}} \cdot \mathrm{Var} \left(s_j^{[l]} \right) &= \mathrm{Var} \left(w_{j,i}^{[l]} \right)\mathrm{Var} \left(x_i^{[l]} \right)+\mathrm{Var} \left(w_{j,i}^{[l]} \right)\mathbb{E} \left(x_i^{[l]} \right)^2 & j^{[l]} = 1, 2, \cdots, m^{[l]} \quad i^{[l]} = 1, 2, \cdots, n^{[l]} \\ &= \mathrm{Var} \left(w_{j,i}^{[l]} \right)\left[ \mathbb{E} \left({x_i^{[l]}}^2 \right)-\mathbb{E} \left(x_i^{[l]} \right)^2 \right]+\mathrm{Var} \left(w_{j,i}^{[l]} \right)\mathbb{E} \left(x_i^{[l]} \right)^2 & j^{[l]} = 1, 2, \cdots, m^{[l]} \quad i^{[l]} = 1, 2, \cdots, n^{[l]} \\ &= \mathrm{Var} \left(w_{j,i}^{[l]} \right) \mathbb{E} \left({x_i^{[l]}}^2 \right) & j^{[l]} = 1, 2, \cdots, m^{[l]} \quad i^{[l]} = 1, 2, \cdots, n^{[l]} \end{aligned}$ 根据神经网络的关系得：
$\begin{aligned} \mathbb{E} \left({x_i^{[l]}}^2 \right) = \mathbb{E} \left({y_j^{[l-1]}}^2 \right) = \mathbb{E} \left[ PReLU^2\left( s_j^{[l-1]} \right) \right] \quad i^{[l]} = 1, 2, \cdots, n^{[l]} \quad j^{[l-1]} = i^{[l]} \end{aligned}$ 根据数学期望的表达式得：
$\begin{aligned} \mathbb{E} \left({x_i^{[l]}}^2 \right) &= \int_{-\infty}^{+\infty}{PReLU^2(x) \cdot p_{s_j^{[l-1]}} (x) \cdot \mathrm{d}x } & \quad i^{[l]} = 1, 2, \cdots, n^{[l]} \quad j^{[l-1]} = i^{[l]} \\ &= \int_{-\infty}^{0}{PReLU^2(x) \cdot p_{s_j^{[l-1]}} (x) \cdot \mathrm{d}x } + \int_{0}^{+\infty}{PReLU^2(x) \cdot p_{s_j^{[l-1]}} (x) \cdot \mathrm{d}x } & \quad i^{[l]} = 1, 2, \cdots, n^{[l]} \quad j^{[l-1]} = i^{[l]} \end{aligned}$
根据 PReLU 的表达式得：
$\begin{aligned} \mathbb{E} \left({x_i^{[l]}}^2 \right) = a^2 \int_{-\infty}^{0}{ x^2 \cdot p_{s_j^{[l-1]}}(x) \cdot \mathrm{d}x } + \int_{0}^{+\infty}{x^2 \cdot p_{s_j^{[l-1]}}(x) \cdot \mathrm{d}x } \quad i^{[l]} = 1, 2, \cdots, n^{[l]} \quad j^{[l-1]} = i^{[l]} \end{aligned}$ 根据第三条假设可得 $p_{s_j^{[l-1]}}(x)$ 是偶函数，则有：
$\begin{aligned} \mathbb{E} \left({x_i^{[l]}}^2 \right) &= \frac{a^2}{2} \int_{-\infty}^{+\infty}{ x^2 \cdot p_{s_j^{[l-1]}}(x) \cdot \mathrm{d}x } + \frac{1}{2}\int_{-\infty}^{+\infty}{x^2 \cdot p_{s_j^{[l-1]}}(x) \cdot \mathrm{d}x } & i^{[l]} = 1, 2, \cdots, n^{[l]} \quad j^{[l-1]} = i^{[l]} \\ &= \frac{1+a^2}{2}\int_{-\infty}^{+\infty}{x^2 \cdot p_{s_j^{[l-1]}}(x) \cdot \mathrm{d}x } & i^{[l]} = 1, 2, \cdots, n^{[l]} \quad j^{[l-1]} = i^{[l]} \end{aligned}$ 根据数学期望的定义得：
$\begin{aligned} \mathbb{E} \left({x_i^{[l]}}^2 \right) = \frac{1+a^2}{2} \mathbb{E}\left( {s_j^{[l-1]}}^2 \right) = \frac{1+a^2}{2} \left[ \mathrm{Var}\left( s_j^{[l-1]} \right) + {\mathbb{E}\left( s_j^{[l-1]} \right)}^2 \right] \quad i^{[l]} = 1, 2, \cdots, n^{[l]} \quad j^{[l-1]} = i^{[l]} \end{aligned}$ 根据第三条假设可得 $\mathbb{E}\left( s_j^{[l-1]} \right)=0$ ，则有：
$\mathbb{E} \left({x_i^{[l]}}^2 \right) = \frac{1+a^2}{2} \mathrm{Var}\left( s_j^{[l-1]} \right) \quad i^{[l]} = 1, 2, \cdots, n^{[l]} \quad j^{[l-1]} = i^{[l]}$ 代入上文中得式子得：
$\mathrm{Var} \left(s_j^{[l]} \right) = \mathrm{Var}\left( s_j^{[l-1]} \right) \frac{\left(1+a^2\right)n^{[l]}}{2} \mathrm{Var} \left(w_{j,i}^{[l]} \right) \quad j^{[l]} = 1, 2, \cdots, m^{[l]} \quad i^{[l]} = 1, 2, \cdots, n^{[l]} \quad j^{[l-1]} = i^{[l]}$ 根据第二条假设得：
$\mathrm{Var} \left(w_{j,i}^{[l]} \right) = \frac{2}{\left(1+a^2\right)n^{[l]}} \quad j^{[l]} = 1, 2, \cdots, m^{[l]} \quad i^{[l]} = 1, 2, \cdots, n^{[l]}$ 结合第一条假设中对权重值提出的同分布和数学期望为 $0$ 的要求，当选用正态分布和均匀分布来为权重产生随机数时，分别应满足：
$w_{j,i}^{[l]} \, \stackrel{iid}{\sim} \, N \left( 0, \, \sqrt{\frac{2}{\left(1+a^2\right)n^{[l]}}} \right) \quad j^{[l]} = 1, 2, \cdots, m^{[l]} \quad i^{[l]} = 1, 2, \cdots, n^{[l]}$ $w_{j,i}^{[l]} \, \stackrel{iid}{\sim} \, U \left( -\sqrt{\frac{6}{\left(1+a^2\right)n^{[l]}}}, \, \sqrt{\frac{6}{\left(1+a^2\right)n^{[l]}}} \right) \quad j^{[l]} = 1, 2, \cdots, m^{[l]} \quad i^{[l]} = 1, 2, \cdots, n^{[l]}$
何恺明在论文中提到使用正向传播得出结果和反向传播得出结果均可，所以这里不再对反向传播进行推导。与上文中一样，第二条假设可以借助 BN 算法得以实现。第四条假设中我们将激活函数设定为 PReLU，若想将以上结果应用到 ReLU 中，只需要令 $a = 0$ 即可。