深度学习笔记——数值稳定性、模型初始化与激活函数

静静的喝酒

已于 2023-05-17 11:06:30 修改

阅读量659

点赞数 1

分类专栏：深度学习文章标签：深度学习笔记机器学习数值稳定性

于 2023-05-12 18:08:16 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/130620040

版权

机器学习笔记——数值稳定性、模型初始化与激活函数

引言

引言

本节将对数值稳定性、模型初始化以及激活函数进行系统介绍。

数值稳定性——梯度爆炸

关于梯度消失的部分，这里不再赘述。详见笔记：机器学习笔记之正则化(六)批标准化(BatchNormalization)

这里提到数值稳定性中的数值是指神经网络反向传播过程中梯度的变化量。在神经网络比较深的情况下，梯度数值非常容易不稳定。

考虑已知一个 $d$ 层的神经网络，其中第 $t$ 隐藏层 $(t < d)$ 的输出 $h_t$ 与 $t - 1$ 隐藏层输出 $h_{t-1}$ 之间的关系表示为：
$h_t = f_t(h_{t-1})$
关于该神经网络的前馈计算过程表示如下：
需要注意的是，这里的 $y$ 并不是预测结果(因为包含损失函数 $\mathcal L$ )，它仅仅描述一个前馈计算过程。
$\mathcal L \circ f_d \circ f_{d-1} \circ \cdots\circ f_1(x)$
基于上述运算，损失函数 $\mathcal L$ 关于第 $t$ 层神经网络 $h_t$ 的权重参数 $\mathcal W_t$ 的梯度可表示为：
$\frac{\partial \mathcal L}{\partial \mathcal W_t} = \frac{\partial \mathcal L}{\partial h_d} \cdot \underbrace{\frac{\partial h_d}{\partial h_{d-1}} \cdots\frac{\partial h_{t+1}}{\partial h_t}}_{d - t次矩阵乘法} \cdot \frac{\partial h_t}{\partial \mathcal W_t}$
假设第 $t$ 隐藏层函数 $f_t(h_{t-1}) = \sigma(\mathcal W_t \cdot h_{t-1})$ ，其中 $\sigma$ 表示激活函数；这里为简化起见，忽略了偏置项 $b$ ；那么关于 $t$ 隐藏层输出 $h_t$ 对 $h_{t-1}$ 的梯度表示为：
$\frac{\partial h_t}{\partial h_{t-1}} = \underbrace{\text{Diag} \left[\sigma' \left(\mathcal W_t \cdot h_{t-1}\right)\right]}_{\partial h_t /\partial \mathcal Z_t} \cdot \underbrace{\mathcal W_t^T}_{\partial \mathcal Z_t/\partial h_t} \quad \mathcal Z_t = \mathcal W_t \cdot h_{t-1}$
其中 $\text{Diag}$ 表示对角矩阵——由于 $h_t$ 和 $\mathcal Z_t$ 是两个形状相同的向量(激活函数不影响向量形状)，向量关于向量的导数是一个多维矩阵(张量 $(\text{Tensor})$ )。这个对角阵的元素的每一行元素均对应向量 $\mathcal W_t$ 内的某一具体分量。
推荐一篇‘向量求导’的文章，见下方链接。侵删。

至此，关于上述 $d - t$ 次矩阵乘法可表示为如下形式：
$\begin{aligned} \frac{\partial h_d}{\partial h_t} & = \prod_{i=t}^{d-1} \frac{\partial h_{i+1}}{\partial h_i} \\ & = \prod_{i=t}^{d-1} \text{Diag}\left[\sigma'(\mathcal W_i h_{i-1})\right] \cdot \mathcal W_i^T \end{aligned}$

假设构建如下场景：

使用 $\text{ReLU}$ 函数作为激活函数，其函数以及导数结果表示为如下形式：
$\sigma(x) = \max(0,x) \quad \sigma'(x) = \begin{cases} 1 \quad \text{if } x > 0 \\ 0 \quad \text{Otherwise} \end{cases}$
针对某任务目标(例如极大似然估计)，使用梯度上升法作为参数的迭代算法：
$\mathcal W^{(t+1)} \Leftarrow \mathcal W^{(t)} + \eta \cdot \frac{\partial \mathcal L^{(t)}}{\partial \mathcal W}$
由于样本特征/权重初始化的问题，导致权重结果各分量 $> 1$ 。

至此。观察梯度 $\begin{aligned} \frac{\partial h_d}{\partial h_t}\end{aligned}$ ：
根据 $\text{ReLU}$ 函数的导数表达，那么矩阵 $\text{Diag} [\sigma'(\mathcal W_i \cdot h_{i-1})]$ 必然是一个由 $0, 1$ 元素构成的多维矩阵。并且这些 $0$ 分量对应的权重分量 $\mathcal W_{i(k)}^T \in \mathcal W_i^T$ 的梯度结果为 $0$ 。
$\frac{\partial h_d}{\partial h_t} = \prod_{i=t}^{d-1} \underbrace{\text{Diag}[\sigma'(\mathcal W_i \cdot h_{i-1})]}_{0,1元素构成} \cdot \prod_{i=t}^{d-1} \mathcal W_i^T$

而最终的梯度结果表示为那些没有被置 $0$ 的权重分量的乘积结果。由于这些权重分量均大于 $1$ ，并且 $\text{ReLU}$ 在大于 $0$ 部分的导数为 $1$ 。也就是说，这些大于 $0$ 的权重分量在 $\text{ReLU}$ 激活函数条件下，其梯度不会造成削减。最终导致 $\prod_{i=t}^{d-1} \mathcal W_i^T$ 在连乘过程中越来越大。

从而导致 $\begin{aligned}\frac{\partial \mathcal L}{\partial \mathcal W}\end{aligned}$ 越来越大，最终导致 $\mathcal W^{(t+1)}$ 在累加过程中越来越大，导致梯度爆炸现象。

小插曲：关于对角阵 $\text{Diag}[\sigma'(\mathcal W_t \cdot h_{t-1})]$ 的解释

实际上，这部分在其他描述反向传播时也都描述过，只不过这次更详细一些，针对‘向量对向量求偏导’进行具体描述。

为了书写方便，我们将第 $t$ 隐藏层的输入和输出由原来的 $h_{t-1},h_{t}$ 改为 $h^{(t-1)},h^{(t)}$ 。
已知某神经网络第 $t$ 隐藏层的前馈计算图表示如下：
某层神经网络前馈计算图
由图中可知，向量 $h^{(t-1)} = \left(h_1^{(t-1)},h_2^{(t-1)},\cdots,h_m^{(t-1)}\right)^T_{m \times 1}$ 是该层的输入； $\mathcal Z^{(t)} = \left(\mathcal Z_{1}^{(t)},\mathcal Z_2^{(t)},\cdots,\mathcal Z_{n}^{(t)}\right)_{n \times 1}^T$ 表示线性计算的输出； $h^{(t)} = \left(h_1^{(t)},h_2^{(t)},\cdots,h_n^{(t)}\right)_{n \times 1}^T$ 表示该隐藏层的输出。其前馈计算过程表示如下：
$h^{(t)} = \text{ReLU} \left(\underbrace{[\mathcal W^{(t)}]^T h^{(t-1)}}_{\mathcal Z^{(t)}}\right)$
其中权重矩阵 $\mathcal W^{(t)}$ 是一个 $\times n$ 格式的矩阵：