读书笔记-数值稳定性和模型初始化

最新推荐文章于 2024-06-03 21:57:36 发布

取个名字真难呐

最新推荐文章于 2024-06-03 21:57:36 发布

阅读量1.5k

点赞数

分类专栏： pytorch 文章标签：人工智能机器学习 pytorch python

本文链接：https://blog.csdn.net/scar2016/article/details/121583084

版权

pytorch 专栏收录该内容

148 篇文章 26 订阅

订阅专栏

文章目录

1. 背景
2. 梯度消失&梯度爆炸
3. 模型初始化
4. 激活函数
5. 小结-激活函数
- 5.1 权重初始化：
- 5.2 激活函数
6. Xavier初始化的代码

1. 背景

我们在训练神经网络的过程中，需要经常对神经网络进行随机初始化。但当神经网络不复杂的时候，我们可以不用太关心参数初始化。然而对于深度神经网络来说，初始化方案对于训练的收敛性起到至关作用。糟糕的初始化会让发生梯度爆炸和梯度消失。

2. 梯度消失&梯度爆炸

假设我们有 d 层的深度神经网络， t 表示层数。
$h^t=f_t(h^{t-1})\tag{1}$
$y=l·f_d·...·f_1(x)\tag{2}$
那么我们可以计算损失值 l 关于权重参数 w 的导数如下：
$\frac{\partial l}{\partial w^t}=\frac{\partial l}{\partial h^d}·\underbrace{\frac{\partial h^d}{\partial h^{d-1}}...\frac{\partial h^{t+1}}{\partial h^{t}}}_{d-t次矩阵乘法}·\frac{\partial h^t}{\partial w^t}\tag{3}$

因为要进行 d-t 次矩阵乘法，那么如果每一个梯度值为 m 。
$1.5^{100}≈4×10^{17}\rightarrow 梯度爆炸\tag{4}$
$0.8^{100}≈2×10^{-10}\rightarrow 梯度消失\tag{5}$

梯度爆炸：导致了梯度超过计算机值的范围，造成上溢
梯度消失：导致了梯度十分的小，导致神经网络无法更新相关参数
为了解决上述梯度爆炸和梯度消失问题，我们希望在每层梯度都在合理范围内。
MLP多层感知机举例
假设第 t 层的函数如下：
$f_t(h^{t-1})=\sigma(w^th^{t-1});\sigma是激活函数\tag{6}$
对权重 $w_t$ 求导可得：
$\frac{\partial h^t}{\partial h^{t-1}}=diag(\sigma'(w^th^{t-1}))(w^t)^T;\sigma'是\sigma的导数函数\tag{7}$
$\prod_{i=t}^{d-1}\frac{\partial h^{t-1}}{\partial h^i}=\prod_{i=t}^{d-1}diag(\sigma'(w^th^{t-1}))(w^t)^T\tag{8}$
假设使用ReLU作为激活函数，那么可以得到：
$\sigma(x)=max(0,x)\tag{9}$

$\sigma'(x)=\left\{\begin{array}{l} 1 ,\qquad if \quad x>0 \\ 0 ;\qquad otherwise \end{array}\right.\tag{10}$

注：当我们的值大于零时候， $\prod_{i=t}^{d-1}\frac{\partial h^{t-1}}{\partial h^i}$ 中的一些元素的值就由 $\prod_{i=t}^{d-1}(w^i)^T$ 来决定，如果 d-t很大，那么这个连乘值就非常的大，从而导致梯度爆炸或者梯度消失。

3. 模型初始化

为了解决梯度爆炸和梯度消失，我们希望对找到一个合理的区间进行初始化，常见思路如下：

目标：让梯度值在合理的范围内，例如[le-6,le3]
将乘法变加法: ResNet,LSTM
归一化：梯度归一化，梯度裁剪
合理的权重初始和激活函数 <重点>

3.1 目标

为了解决上述问题，我们希望是：让每层的方差是一个常数

将每层的输出和梯度都看作是随机变量
让它们的均值和方差都保持一致
正向期望和方差：
$E[h^t_i]=0;\quad Var[h_i^t]=a\tag{11}$
反向期望和方差：
$E[\frac{\partial l}{\partial h^t_i}]=0;\quad Var[\frac{\partial l}{\partial h^t_i}]=b;\quad \forall i,t\tag{12}$
注：其中 a,b 都是常数
权重初始化
在合理值区间里随机初始参数
训练开始的时候更容易有数值不稳定。常见思路如下： a .远离最优解的地方损失函数表面可能很复杂；b.最优解附近表面会比较平；c.使用N(0,0.01)来初始可能对小玩过没问题，但不能保证深度神经网络
我们以 MLP 为例来讲解下：

假设<1>
权重服从独立同分布,即 $w_{i,j}^t$ 是 i.i.d，且假设均值为 0 ，方差为 $\gamma_t$ ,且 $h_i^{t-1}$ 独立于 $w_{i,j}^t$
$E[w_{i,j}^t]=0;\quad Var[w_{i,j}^t]=\gamma_t\tag{13}$
假设<2>
假设这个 MLP 没有激活函数，满足 $h^t=w^th^{t-1}$ ,这里 $w^t \in R^{n_t×n_{t-1}}$
$E[h_i^t]=E[\sum_jw^t_{i,j}h_j^{t-1}]=\sum_jE[w^t_{i,j}]E[h_j^{t-1}]=0\tag{14}$

正向方差计算：
$Var[h_i^t]=E[(h_i^t)^2]-E[h_i^t]^2=E[(h_i^t)^2]-0=E[(\sum_jw^t_{i,j}h_j^{t-1})^2]\tag{15}$
展开上式可得：
$=E[\sum_j(w_{i,j}^t)^2(h_j^{t-1})^2+\sum_{j≠k}w_{i,j}^tw_{i,k}^th_j^{t-1}h_k^{t-1}]\tag{16}$
因为 $E[h_i^t]=0$
$=E[\sum_j(w_{i,j}^t)^2(h_j^{t-1})^2]=\sum_jE[(w_{i,j}^t)^2]E[(h_j^{t-1})^2]\tag{17}$
因为 $Var[h_i^t]=E[(h_i^t)^2]-E[h_i^t]^2=E[(h_i^t)^2]-0=E[(h_i^t)^2]$
所以 $E[(w_{i,j}^t)^2]=Var[w_{i,j}^t],E[(h_j^{t-1})^2]=Var[h_j^{t-1}]$
$Var[h_i^t]=E[\sum_j(w_{i,j}^t)^2(h_j^{t-1})^2]=\sum_jVar[w_{i,j}^t]Var[h_j^{t-1}]\tag{18}$
因为 $Var[w_{i,j}^t]=n_{t-1}\gamma_t$
$Var[h_i^t]=\sum_jVar[w_{i,j}^t]Var[h_j^{t-1}]=n_{t-1}\gamma_tVar[h_j^{t-1}]\tag{19}$
这样我们就得到了递推公式：
$Var[h_i^t]=n_{t-1}\gamma_tVar[h_j^{t-1}]\tag{20}$
那么为了保证我们的数据在训练过程中满足方差不变，那么我们只需要满足如下：
$n_{t-1}\gamma_t=1\tag{21}$
反向方差计算：
$\frac{\partial l}{\partial h^{t-1}}=\frac{\partial l}{\partial h^{t}}w^t\tag{22}$
$(\frac{\partial l}{\partial h^{t-1}})^T=[w^t]^T(\frac{\partial l}{\partial h^{t}})^T\tag{23}$
因为我们假设了期望为 0，方差为常数 $\gamma_t$
$E[\frac{\partial l}{\partial h^{t-1}_i}]=0\tag{24}$
$Var[\frac{\partial l}{\partial h^{t-1}_i}]=n_t\gamma_tVar[\frac{\partial l}{\partial h^{t}_j}]\tag{25}$
以上为迭代公式，为了保证整体的方差不变，需要满足如下：
$n_t\gamma_t=1\tag{26}$

3.2 分析

我们已经通过正向和反向运算可以得出，需要满足两个条件
$n_{t-1}\gamma_t=1\tag{27}$
$n_t\gamma_t=1\tag{28}$

注： $n_{t-1}$ 是第 t 层输入的维度； $n_t$ 是第 t 层输出的维度， $\gamma_t$ 表示第 t 层权重的方差，除非输入与输出相同，否侧无法满足上述条件，为了解决上述问题，我们引入了Xavier。

3.3 Xavier 初始化

将公式 <27>,<28>相加后可得
$(n_{t-1}+n_t)\gamma_t=2\tag{29}$
$\gamma_t=\frac{2}{n_{t-1}+n_t}\tag{30}$
也就是说在给定输入输出维度时，我们希望权重满足期望为 0, 方差为 $\gamma_t=\frac{2}{n_{t-1}+n_t}$

对第 t 层的权重层进行初始化权重时，初始化的常见分布如下：
正太分布：
$X\sim N(0,\sqrt{\frac{2}{(n_{t-1}+n_t)}})\tag{31}$
均匀分布:
$X\sim U(-\sqrt{\frac{6}{(n_{t-1}+n_t)}},\sqrt{\frac{6}{(n_{t-1}+n_t)}})\tag{32}$
适配权重形状变换，特别是 $n_t$

4. 激活函数

假设这个 MLP 有激活函数时,分布满足期望为 0 ，方差为常数 $\gamma_t$ ，并且此激活函数为线性的。我们知道一般是不会选择线性激活函数。我们这里暂且这样假设，通过后续分析此合理性。

正向期望方差计算：
$\sigma(x)=ax+\beta\tag{33}$
$h'=w^th^{t-1}\tag{34}$
$h^t=\sigma(h')\tag{35}$
那么我们来计算期望和方差:
$E[h_i^t]=E[ah_t'+\beta]=aE[h_t']+\beta=\beta\tag{36}$
$Var[h_i^t]=E[(h_i^t)^2]-E^2[h_i^t]=E[(ah_t'+\beta)^2]-{\beta}^2\tag{37}$
$Var[h_i^t]=E[a^2(h_i')^2+2a\beta h_i'+\beta^2)]-{\beta}^2=a^2Var[h_i']\tag{38}$
为了保证在经过第 t 层的后还是满足前后的两个分布是期望为零，方差不变，通过迭代公式<36>,<38>那么需要使得
$\beta=0\tag{39}$
$a=1\tag{40}$
所以线性激活函数应该为：
$\sigma(x)=x\tag{40}$
反向期望方差计算：
线性激活函数：
$\sigma(x)=ax+\beta\tag{41}$
梯度关系如下：
$权重更新：\frac{\partial l}{\partial h'}=\frac{\partial l}{\partial h^t}(w^t)^T\tag{42}$
$激活函数更新：\frac{\partial l}{\partial h^{t-1}}=a\frac{\partial l}{\partial h'}\tag{43}$
$E[\frac{\partial l }{\partial h_i^{t-1}}]=0\tag{44}$
$Var[\frac{\partial l}{\partial h_i^{t-1}}]=a^2 Var[\frac{\partial l}{\partial h_j'}]\tag{45}$
得出如下：
$a=1;\beta=0\tag{46}$

5. 小结-激活函数

有上面可得，只有我们的激活函数满足了如下即可：
$f(x)=x\tag{47}$

常见的函数泰勒公式展开如下：
$sigmoid(x)=\frac{1}{2}+\frac{x}{4}-\frac{x^3}{48}+O(x^5)\tag{48}$
$tanh(x)=0+x-\frac{x^3}{3}+O(x^5)\tag{49}$
$ReLU(x)=0+x;\qquad x\geq 0\tag{50}$
我们发现，对于sigmoid激活函数时，局部也不满足 f(x)=x，为此我们可以进行调整可得：
调整后的 sigmoid:
$4\times sigmoid(x)-2=x-\frac{x^3}{12}+O(x^5)\tag{51}$
这样我们就能在 x->0的附近，近似的认为 f(x) ≈ x.这样我们可以得到合理的初始值。
-总结
$合理的权重初始值和激活函数的选取可以提升数值稳定性$

5.1 权重初始化：

权重初始化的值来自于分布，分布期望 0, 方差 $\gamma_t$

正太分布：
$X\sim N(0,\sqrt{\frac{2}{(n_{t-1}+n_t)}})\tag{52}$
均匀分布:
$X\sim U(-\sqrt{\frac{6}{(n_{t-1}+n_t)}},\sqrt{\frac{6}{(n_{t-1}+n_t)}})\tag{53}$

5.2 激活函数

激活函数的选择最好选择 ReLu(x),或者近似于 f(x)=x的函数。

6. Xavier初始化的代码

为了实现上述初始化问题，我们可以选择如下函数：

正太分布：torch.nn.init.xavier_normal_
均匀分布: torch.nn.init.uniform_
代码

# -*- coding: utf-8 -*-
# @Project: zc
# @Author: zc
# @File name: xavier_normal
# @Create time: 2021/11/28 17:49
import torch
from torch import nn

w1 = torch.empty(3,5)
w2 = torch.empty(3,5)
print(f'w1_empty={w1}')
nn.init.xavier_normal_(w1)
print(f'w_normal={w1}')
print(f'w2_empty={w2}')
nn.init.xavier_uniform_(w2)
print(f'w_uniform={w2}')

结果

w1_empty=tensor([[1.4802e-15, 7.3288e-43, 1.4802e-15, 7.3288e-43, 1.4798e-15],
        [7.3288e-43, 1.4798e-15, 7.3288e-43, 1.4799e-15, 7.3288e-43],
        [1.4799e-15, 7.3288e-43, 1.4799e-15, 7.3288e-43, 1.4799e-15]])
w_normal=tensor([[ 0.6229,  0.3186,  0.2490,  0.5447, -0.9170],
        [ 0.1360, -0.1026,  0.0904, -0.5155,  0.2935],
        [-0.4435, -0.3894, -0.6188,  0.3351, -0.0992]])
w2_empty=tensor([[8.9082e-39, 5.9694e-39, 8.9082e-39, 1.0194e-38, 9.1837e-39],
        [4.6837e-39, 9.2755e-39, 1.0837e-38, 8.4490e-39, 1.1112e-38],
        [9.5511e-39, 1.0102e-38, 9.0919e-39, 9.9184e-39, 9.0000e-39]])
w_uniform=tensor([[ 0.2040, -0.6079,  0.2713,  0.6141, -0.5691],
        [-0.7909, -0.7151,  0.3155,  0.4237,  0.4385],
        [-0.3826, -0.5026, -0.7302,  0.2931, -0.5977]])