[深度学习] 使用Xavier进行权重初始化的原理以及caffe实现

最新推荐文章于 2022-06-30 19:54:45 发布

置顶张捷阳

最新推荐文章于 2022-06-30 19:54:45 发布

阅读量773

点赞数 1

文章标签：深度学习算法人工智能机器学习

本文链接：https://blog.csdn.net/qq_41434069/article/details/106154419

版权

0.背景说明

这几天开始在看caffe源码, 看到官方代码中有mnist的examples. 其中使用的网络模型是lenet. 在layer name:conv1中使用xavier对该层layer进行权重初始化, 因此本文探究一下xavier初始化方法的原理作用以及caffe代码实现方法.

1.Xavier介绍以及推导

1.0.符号表达式定义以及采用的模型

为方便公式推导，使用一个简单的三层神经网络；为方便描述，规定以下符号表达式定义：

参数名	含义
$N^l$	第 $l$ 层单元数量
$A^l$	第 $l$ 层激活值向量，维度为 $N^l×1]$
$a^l_j$	$A^l$ 中的元素，代表第 $l$ 层第 $j$ 个单元的激活值
$W^l$	第 $l$ 层的权重矩阵，维度为 $N^l, N^{l+1}]$
$w^l_{jk}$	$W^l$ 中的元素，代表第 $l - 1$ 层的第 $j$ 个单元连接到第 $l$ 层第 $k$ 个单元的权重
$B^l$	第 $l$ 层偏置项向量,维度为 $N^l]$
$b^l_{k}$	$B^l$ 中的元素，代表第 $l$ 层第 $k$ 个单元的偏置项
$Z^l$	第 $l$ 层激活函数的加权输入向量，即 $Z^l=W^l×A^{l-1}+B^l$
$z^l_j$	$Z^l$ 中的元素，代表第 $l$ 层第 $j$ 个单元的加权输入
$C$	尝试优化的损失函数,本文使用平方损失函数 $\frac{1}{2}(Y-O)^2$ 作为损失函数
$σ$	激活函数,因此 $σ^l = σ(Z^l)$ ，其中该函数应用到输入向量的每一个元素。
$X$	神经网络输入向量
$δ^l$	$δ^l=\frac{\partial C}{\partial Z^l}$ 为损失函数对第 L 层加权输入向量的梯度，同样也成为误差方向。
$δ^l_k$	$δ^l=\frac{\partial C}{\partial z^l_k}$ 为损失函数对第 $l$ 层第 $k$ 个单元的加权输入的梯度
$M$	网络总层数

网络模型图：
图1_0_1

1.1.前向传播

假设第 $l$ 层网络的输入为第 $l - 1$ 层的激活值向量 $A^{l-1}$ ，向量维度为 $N^{l-1} × 1]$
以第 $l = 2$ 为例：

输入	加权计算	激活	输出
$a^{1}_1,a_2^1$	$z^2_1 = w^{2}_{11}a_1^1+w_{21}^2a_2^1+b^{2}_{1}$	$a^2_1=σ(z^2_1)$	$a^2_1$
$a^{1}_1,a_2^1$	$z^2_2 = w^{2}_{12}a_1^1+w_{22}^2a_2^1+b^{2}_{2}$	$a^2_2=σ(z^2_2)$	$a^2_2$
$a^{1}_1,a_2^1$	$z^2_3 = w^{2}_{13}a_1^1+w_{23}^2a_2^1+b^{2}_{3}$	$a^2_3=σ(z^2_3)$	$a^2_3$

可以得出 $l$ 层输出为:
$A^l =\sum_{k=1}^{N^l}{\sum_{j=1}^{N^{l-1}}σ(w_{jk}^l*a^{l-1}_{j}+b^l_k}) \tag{1}$
考虑计算第 $l$ 层的第 $k$ 个神经元的加权输入 $z_{k}^{l}$ 的方差:
$\begin{aligned} D(z_{k}^{l}) &= D(\sum_{j=1}^{N^{l-1}}w_{jk}^{l}a^{l-1}_j+b^l_k)\tag{2} \end{aligned}$
将偏置项初始化为 $0$ , 则:
$\begin{aligned} D(z_{k}^{l}) &=D(\sum_{j=1}^{N^{l-1}}w_{jk}^{l}a^{l-1}_j)\tag{3} \end{aligned}$
由

“独立变量和的方差等于独立变量的方差的和”

得到:
$\begin{aligned} D(z_{k}^{l}) &=\sum_{j=1}^{N^{l-1}}D(w_{jk}^{l}a^{l-1}_j)\tag{4} \end{aligned}$
假设权重参数和 $l - 1$ 层激活值相互独立, 由接下来推导两个独立变量乘积项的方差,推导如下:
由方差定义可得
$\begin{aligned} D(xw)&=E((xw - E(xw))^2) \\ &= E(x^2w^2-2xwE(xw)+(E(xw))^2) \\ &=E(x^2w^2)-2(E(kw))^2+(E(xw))^2 \\ &=E(x^2w^2)-(E(xw))^2 \end{aligned}\tag{5-1}$
其中 $D ()$ 代表方差, $E ()$ 代表期望值,在这里也可以等价于平均值
假设 $x, w$ 相互独立,有
$\begin{aligned} E(x^2w^2) = E(x^2)E(w^2) \end{aligned}\tag{5-2}$
$\begin{aligned} E(xw) = E(x)E(w) \end{aligned}\tag{5-3}$
结合式 $(5 - 2) (5 - 3)$ 有
$\begin{aligned} D(xw)=E(x^2)E(w^2)-(E(xw))^2 \end{aligned}\tag{5-3}$
同样的由方差定义得
$\begin{aligned} D(x)&=E((x-E(x))^2) \\ &=E(x^2-2xE(x)+E(x))^2 \\ &=E(x^2)-2(E(x))^2+E(x))^2 \\ &=E(x^2)-E(x)^2 \end{aligned}\tag{5-4}$
可得
$\begin{aligned} E(x^2)=D(x)+E(x)^2\tag{5-5} \end{aligned}$
同样的
$\begin{aligned} E(w^2)=D(w)+E(w)^2\tag{5-6} \end{aligned}$
代入式(5-3)得
$\begin{aligned} D(xw)=&D(x)D(w)+E(x)^2D(w)+ \\&D(x)E(w)^2+E(x)^2E(w)^2-(E(xw))^2 \\ =&D(x)D(w)+E(x)^2D(w)+D(x)E(w)^2 \end{aligned}\tag{5-7}$
推导结束, 代入到式(4),且假设初始化权重和激活值服从均值为 $0$ 的分布,得到:
$\begin{aligned} D(z_{k}^{l}) &=\sum_{j=1}^{N^{l-1}}D(w_{jk}^{l})D(a^{l-1}_j) \\ &=\sum_{j=1}^{N^{l-1}}D(w_{k}^{l})D(A^{l-1})\\ &=N^{l-1}D(w_{k}^{l})D(A^{l-1})\\ \end{aligned}\tag{6}$
考虑
$\begin{aligned} N^{l}D(Z^{l})&= \sum_{k=1}^{N^{l}}D(z_{k}^{l})\\ &= \sum_{k=1}^{N^{l}}N^{l-1}D(w_{k}^{l})D(A^{l-1})\\ &= \sum_{k=1}^{N^{l}}N^{l-1}D(W^{l})D(A^{l-1})\\ &=N^lN^{l-1}D(W^{l})D(A^{l-1})\\ \end{aligned}\tag{7}$
可得 $l$ 层加权输入的方差 $D(Z^{l})$ :
$\begin{aligned} D(Z^{l})&=N^{l-1}D(W^{l})D(A^{l-1})\\ \end{aligned}\tag{8}$
关于激活函数 $σ$ 我们做如下假设：

激活函数对称；
$σ' (0) = 1$ ；
初始时，状态值落在激活函数的线性区域： $σ' (s i k) \approx 1$ 。

三个关于激活函数的假设，称为 $G l o r o t$ 激活函数假设。基于这三个假设，我们可以认为激活函数在初始化时候近似于恒等变换，即第 $l$ 层加权输入和激活函数输出近似相等 $z^l = a^l$ .
此时，有：
$\begin{aligned} D(Z^{l})&=N^{l-1}D(W^{l})D(A^{l-1}) \\ &=N^{l-1}D(W^{l})D(Z^{l-1}) \\ &=N^{l-1}D(W^{l})N^{l-2}D(W^{l-1})D(Z^{l-2}) \\ &=D(X)\prod_{i=1}^{l-1}N^iD(W^{i+1}) \end{aligned}\tag{9}$
我们希望每一层的加权输入方差 $D(Z^{l})$ 都相等, 只需要确保每一层 $N^{l-1}D(W^{l})$ 等于 $1$ ，那么只需要满足：
$D(W^{l}) = \frac{1}{N^{l-1}}\tag{10}$
这里 $N^{l-1}$ 代表 $l$ 层的输入端数量。

1.2.反向传播

模型图：
在这里插入图片描述同样的，以第 $1$ 层为例：
考虑第一层第一个单元的加权输入对于损失函数的梯度：
$\begin{aligned} δ^1_1 &=\frac{\partial C}{\partial z^1_1}\\ &=\frac{\partial C}{\partial a^1_1}*\frac{\partial a^1_1}{\partial z^1_1}\\ &=(\frac {\partial C}{\partial z^2_1}*\frac {\partial z^2_1}{\partial a^1_1} + \frac {\partial C}{\partial z^2_2}*\frac {\partial z^2_2}{\partial a^1_1} + \frac {\partial C}{\partial z^2_3}*\frac {\partial z^2_3}{\partial a^1_1})*σ′(z^1_1)\\ &=(\frac {\partial C}{\partial z^2_1}*w^{2}_{11} + \frac {\partial C}{\partial z^2_2}*w^{2}_{12} + \frac {\partial C}{\partial z^2_3}*w^{2}_{13})*σ′(z^1_1)\\ &=(δ^2_1*w^{2}_{11} +δ^2_2*w^{2}_{12} +δ^2_3*w^{2}_{13})*σ′(z^1_1) \end{aligned}\tag{11}$
一般，第 $l$ 层第 $j$ 个单元对于损失函数的梯度可以表示为：
$\begin{aligned} D(δ^l_j) &=D((\sum_{k=1}^{N^{l+1}}w^{l+1}_{jk}δ^{l+1}_k)*σ′(z^l_j))\\ \end{aligned}$
由上一节对激活函数的三个假设可知，加权输入 $z^L$ 的均值为 $0$ ，且在初始化阶段激活函数的导数 $σ′(z_j)$ 近似为 1:
$\begin{aligned} &=D(\sum_{k=1}^{N^{l+1}}w^{l+1}_{jk}δ^{l+1}_k)\\ &=\sum_{k=1}^{N^{l+1}}D(w^{l+1}_{jk}δ^{l+1}_k)\\ &=\sum_{k=1}^{N^{l+1}}D(w^{l+1}_{jk})D(δ^{l+1}_k)\\ &=N^{l+1}D(w^{l+1}_{j})D(δ^{l+1})\\ \end{aligned}\tag{12}$
考虑
$\begin{aligned} N^{l}D(δ^{l})&=\sum^{N^l}_{j=0}D(δ^l_j)\\ &=\sum^{N^l}_{j=0}N^{l+1}D(w^{l+1}_{j})D(δ^{l+1})\\ &=N^lN^{l+1}D(W^{l+1})D(δ^{l+1}) \end{aligned}\tag{13}$
得到第 $l$ 层加权输入的梯度 $D(δ^{l})$ 为：
$\begin{aligned} D(δ^{l})&=N^{l+1}D(W^{l+1})D(δ^{l+1})\\ &=N^{l+1}D(W^{l+1})N^{l+2}D(W^{l+2})D(δ^{l+2})\\ &=D(δ^{M})\prod^{M-1}_{i=1}N^iD(W^i) \end{aligned}\tag{14}$
其中 $δ^{M}$ 是最后一层加权输入对于损失函数的梯度。
因此为了确保在反向传播中所有层的加权输入对于损失函数的梯度 $D(δ^{l})$ 保持不变，需要满足的条件是
$D(W^l) = \frac{1}{N^l}\tag{15}$
这里 $N^l$ 代表 $l$ 层的输出端数量。

1.3.前向传播以及方向传播的权衡

通常来说一个网络层的的输入端数量和输出端数量不保持一致， $G l o r o t$ 和 $B e n g i o$ 建议使用输入端和输出端数量的均值来作为每一层的权重方差。即就是:
$D(W^l) = \frac{2}{N^l + N^{l-1}}\tag{16}$
得到的权重应该满足的方差，可以计算该方差对应的均匀分布:
由均匀分布方差公式, $\sim U(a, b)$ 对应的方差为 $\frac{(b-a)^2}{12}$ ,可得方差对应的均匀分布应为：
$\sim U(-\frac{\sqrt{6}}{\sqrt{N^l + N^{l-1}}}, \frac{\sqrt{6}}{\sqrt{N^l + N^{l-1}}})\tag{17}$

2.caffe代码实现

/**
 * @brief Fills a Blob with values @f$ x \sim U(-a, +a) @f$ where @f$ a @f$ is
 *        set inversely proportional to number of incoming nodes, outgoing
 *        nodes, or their average.
 *
 * A Filler based on the paper [Bengio and Glorot 2010]: Understanding
 * the difficulty of training deep feedforward neuralnetworks.
 *
 * It fills the incoming matrix by randomly sampling uniform data from [-scale,
 * scale] where scale = sqrt(3 / n) where n is the fan_in, fan_out, or their
 * average, depending on the variance_norm option. You should make sure the
 * input blob has shape (num, a, b, c) where a * b * c = fan_in and num * b * c
 * = fan_out. Note that this is currently not the case for inner product layers.
 *
 * TODO(dox): make notation in above comment consistent with rest & use LaTeX.
 */
template <typename Dtype>
class XavierFiller : public Filler<Dtype> {
 public:
  explicit XavierFiller(const FillerParameter& param)
      : Filler<Dtype>(param) {}
  virtual void Fill(Blob<Dtype>* blob) {
    /* count参数是权重矩阵的总个数， 权重矩阵维度[输出端个数, 输入端个数] */
    CHECK(blob->count());
    /* fan_in是输入端个数 */
    int fan_in = blob->count() / blob->shape(0);
    // Compatibility with ND blobs
    int fan_out = blob->num_axes() > 1 ?
                  blob->count() / blob->shape(1) : 
                  blob->count(); /* 当输入端个数为1时, count()参数即就是输出端个数 */
    /** 默认情况下, 只考虑输入端个数;
      * 当配置了FillerParameter_VarianceNorm_AVERAGE参数, 考虑输入和输出;
      * 当配置了FillerParameter_VarianceNorm_FAN_OUT参数, 只考虑输出;
      */ 
    Dtype n = fan_in;  // default to fan_in
    if (this->filler_param_.variance_norm() ==
        FillerParameter_VarianceNorm_AVERAGE) {
      n = (fan_in + fan_out) / Dtype(2);
    } else if (this->filler_param_.variance_norm() ==
        FillerParameter_VarianceNorm_FAN_OUT) {
      n = fan_out;
    }
    Dtype scale = sqrt(Dtype(3) / n);
    /* 生成均匀分布 */
    caffe_rng_uniform<Dtype>(blob->count(), -scale, scale,
        blob->mutable_cpu_data());
    CHECK_EQ(this->filler_param_.sparse(), -1)
         << "Sparsity not supported by this Filler.";
  }
};

具体的含义已在代码注释中说明了，代码路径在/caffe/include/caffe/filler.hpp

参考

链接: Xavier Initialization.

张捷阳

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
[深度学习] 使用Xavier进行权重初始化的原理以及caffe实现

0.背景说明这几天开始在看caffe源码, 看到官方代码中有mnist的examples. 其中使用的网络模型是lenet. 在layer name:conv1中使用xavier对该层layer进行权重初始化, 因此本文探究一下xavier初始化方法的原理作用以及caffe代码实现方法.1.Xavier介绍以及推导Xavier的目的是为了是的网络中某层的输入和输出的方差保持抑制,因此我们要推导出输入与输出的方差;至于使得输入输出方差一致的好处是什么不在本节讨论,接下来几节会讨论并实验假设某层网络的输
复制链接

扫一扫