RNN Vanishing Gradient

最新推荐文章于 2024-05-27 01:43:51 发布

扬州小栗旬

最新推荐文章于 2024-05-27 01:43:51 发布

阅读量214

点赞数 1

分类专栏： NLP CS224n NLP with DL

本文链接：https://blog.csdn.net/weixin_37616971/article/details/101436278

版权

CS224n NLP with DL 同时被 2 个专栏收录

12 篇文章 1 订阅

订阅专栏

NLP

2 篇文章 0 订阅

订阅专栏

RNN Vanishing Gradient

RNN Forward Propagation：

$\mathbf{h}^{(t)} = \sigma(\mathbf{W}_h \mathbf{h}^{(t-1)}+\mathbf{W}_x \mathbf{x}^{(t)}+\mathbf{b}_1) \\ \mathbf{\hat{y}}^{(t)}=softmax(\mathbf{W}_s \mathbf{h}^{(t)}+\mathbf{b}_2))$
其中，输入为d维向量 $\mathbf{x}^{(t)}\in \mathbb{R}^d$ ，隐层是 $D_h$ 维向量 $\mathbf{h}^{(t)}\in \mathbb{R}^{D_h}$ ， $\mathbf{\hat{y}}^{(t)} \in \mathbb{R}^{|V|}$ 代表对每个单词预测的概率，参数： $\mathbf{W}_x \in \mathbb{R}^{D_h\times d}$ ， $\mathbf{W}_h \in \mathbb{R}^{D_h\times D_h}$ ， $\mathbf{W}_s \in \mathbb{R}^{|V|\times D_h}$ ， $∣ V ∣$ 代表vocabulary大小， $\sigma$ 是sigmoid函数。

在时刻t处的损失(loss)为互熵损失(cross-entropy)形式， $\mathbf{y}^{(t)} \in \mathbb{R}^{|V|}$ 代表真实概率分布的向量，一般为one-hot形式，即在正确单词位置概率值为1，其他位置概率值为0：
$J^{(t)}(\theta) = -\sum_{w=1}^{|V|} y^{(t)}_w \log \hat{y}^{(t)}_w$
整个语料库(corpus)上的损失(loss)为，其中语料库大小为T：
$J=\frac{1}{T} \sum_{t=1}^T J^{(t)}(\theta) = - \frac{1}{T} \sum_{t=1}^T \sum_{w=1}^{|V|} y^{(t)}_w \log \hat{y}^{(t)}_w$

RNN Backward Propagation

模型的参数总共有三个，这里以求解 $\mathbf{W}_h \in \mathbb{R}^{D_h\times D_h}$ 的梯度为例，根据multivariable chain rule，损失对参数的梯度为：
$\frac{\partial J}{\partial \mathbf{W}_h}= \sum_{t=1}^T \frac{\partial J^{(t)}}{\partial \mathbf{W}_h} = \sum_{t=1}^T \sum_{k=1}^t \frac{\partial J^{(t)}}{\partial \mathbf{\hat{y}}^{(t)}} \frac{\partial \mathbf{\hat{y}}^{(t)}}{\partial \mathbf{h}^{(t)}} \frac{\partial \mathbf{h}^{(t)}}{\partial \mathbf{h}^{(k)}} \frac{\partial \mathbf{h}^{(k)}}{\partial \mathbf{W}_h}$

其中 $\frac{\partial \mathbf{h}^{(t)}}{\partial \mathbf{h}^{(k)}}$ 为，

$\frac{\partial \mathbf{h}^{(t)}}{\partial \mathbf{h}^{(k)}} = \prod_{j=k+1}^{t}\frac{\partial \mathbf{h}^{(j)}}{\partial \mathbf{h}^{(j-1)}}=\prod_{j=k+1}^{t} \mathbf{W}_hdiag(\sigma'(\mathbf{h}^{(j-1)}))$

带回得：
$\begin{aligned}\frac{\partial J}{\partial \mathbf{W}_h}&= \sum_{t=1}^T \frac{\partial J^{(t)}}{\partial \mathbf{W}_h} \\&= \sum_{t=1}^T \sum_{k=1}^t\frac{\partial J^{(t)}}{\partial \mathbf{\hat{y}}^{(t)}} \frac{\partial\mathbf{\hat{y}}^{(t)}}{\partial \mathbf{h}^{(t)}} \prod_{j=k+1}^{t}\frac{\partial \mathbf{h}^{(j)}}{\partial \mathbf{h}^{(j-1)}}\frac{\partial \mathbf{h}^{(k)}}{\partial \mathbf{W}_h} \\&= \sum_{t=1}^T \sum_{k=1}^t \frac{\partial J^{(t)}}{\partial \mathbf{\hat{y}}^{(t)}} \frac{\partial \mathbf{\hat{y}}^{(t)}}{\partial \mathbf{h}^{(t)}} \prod_{j=k+1}^{t}\mathbf{W}_h diag\left (\sigma'(\mathbf{h}^{(j-1)}) \right)\frac{\partial \mathbf{h}^{(k)}}{\partial \mathbf{W}_h} \\&= \sum_{t=1}^T \sum_{k=1}^t \frac{\partial J^{(t)}}{\partial \mathbf{\hat{y}}^{(t)}} \frac{\partial \mathbf{\hat{y}}^{(t)}}{\partial\mathbf{h}^{(t)}} \mathbf{W}_h^{t-k}\prod_{j=k+1}^{t}diag\left (\sigma'(\mathbf{h}^{(j-1)}) \right)\frac{\partial \mathbf{h}^{(k)}}{\partial \mathbf{W}_h} \\ \end{aligned}$
可见有一个指数项 $\mathbf{W}_h^{t-k}$ ，假如 $\mathbf{W}_h$ 比较小，随着t与k之间距离变长(即t-k变大)，偏导数会指数的变小(vanishingly small)。实际上和矩阵的特征值有关，我们假设 $\mathbf{W}_h$ 特征值分解为 $\mathbf{W}_h=A\Lambda A^{-1}$ ，其中对角矩阵 $\Lambda$ 内特征值按照绝对值大小排列( $|\lambda_1|\ge |\lambda_2|...|\lambda_{_n}|$ )，则 $\mathbf{W}_h^{t-k}=(A\Lambda A^{-1})...(A\Lambda A^{-1})=A\Lambda^{t-k}A^{-1}=\lambda_1^{t-k}\mathbf{a}_1\mathbf{a}_1^T+\lambda_2^{t-k}\mathbf{a}_2\mathbf{a}_2^T+...+\lambda_1^{n-k}\mathbf{a}_n\mathbf{a}_n^T$ ，这样如果 $|\lambda_1|\le 1$ ，那么在t-k很大的情况下， $\mathbf{W}_h^{t-k}$ 近乎于0。

令 $\beta_W$ 和 $\beta_h$ 分别表示两个矩阵范式的上界(upper bound)，即对于任意 $\mathbf{W}$ 和 $diag(\sigma'(\mathbf{h}))$ ，都满足 $\| \mathbf{W} \| \le \beta_W$ ， $\| diag(\sigma'(\mathbf{h})) \| \le \beta_h$ ，对于矩阵的L2 范式，
$\| \frac{\partial \mathbf{h}^{(j)}}{\partial \mathbf{h}^{(j-1)}} \| = \| \mathbf{W}_hdiag(\sigma'(\mathbf{h}^{(t-1)})) \| \le \| \mathbf{W}_h \| \|diag(\sigma'(\mathbf{h}^{(t-1)})) \| \le \beta_W \beta_h$
所以
$\| \frac{\partial \mathbf{h}^{(t)}}{\partial \mathbf{h}^{(k)}} \|= \prod_{j=k+1}^{t} \| \frac{\partial \mathbf{h}^{(j)}}{\partial \mathbf{h}^{(j-1)}} \| \le {(\beta_W\beta_h)}^{(t-k)}$
这样由于 ${(\beta_W\beta_h)}^{(t-k)}$ 这一项是指数形式，所以在t-k比较大的情况下，很容易变得非常大或者非常小。在RNN中我们使用的是sigmoid非线性函数， $\| diag(\sigma'(\mathbf{h})) \|$ 的一个上界是1，这样 ${(\beta_W\beta_h)}^{(t-k)}$ 在t-k较大时会vanishingly small，也就是梯度消失问题。