RNN中的梯度消失/爆炸原因

最新推荐文章于 2021-03-06 22:42:02 发布

全站最菜QAQ

最新推荐文章于 2021-03-06 22:42:02 发布

阅读量487

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/Elaine_DWL/article/details/97526452

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

RNN中的梯度消失/爆炸原因

梯度消失/梯度爆炸是深度学习中老生常谈的话题，这篇博客主要是对RNN中的梯度消失/梯度爆炸原因进行公式层面上的直观理解。

在这里插入图片描述

首先，上图是RNN的网络结构图， $x_1, x_2, x_3, …, )$ 是输入的序列， $X_t$ 表示时间步为 $t$ 时的输入向量。假设我们总共有 $k$ 个时间步，用第 $k$ 个时间步的输出 $H_k$ 作为输出（实际上每个时间步都有输出，这里仅考虑 $H_k$ ），用 $E_k$ 表示损失。

其中， $C_{t}=\tanh \left(W_{c} C_{t-1}+W_{x} X_{t}\right)$

从上式可以看出 $W_x$ 和 $W_c$ 其实是差不多的，记 $W=[W_c, W_x]$ ，那么求偏导可以得到：

$\begin{aligned} \frac{\partial E_{k}}{\partial W}=& \frac{\partial E_{k}}{\partial H_{k}} \frac{\partial H_{k}}{\partial C_{k}} \frac{\partial C_{k}}{\partial C_{k-1}} \ldots \frac{\partial C_{2}}{\partial C_{1}} \frac{\partial C_{1}}{\partial W}=\\ & \frac{\partial E_{k}}{\partial H_{k}} \frac{\partial H_{k}}{\partial C_{k}}\left(\prod_{t=2}^{k} \frac{\partial C_{t}}{\partial C_{t-1}}\right) \frac{\partial C_{1}}{\partial W} \end{aligned}$

其中的累乘部分为：

$\begin{aligned} \frac{\partial C_{t}}{\partial c_{t-1}}=& \tanh ^{\prime}\left(W_{c} C_{t-1}+W_{x} X_{t}\right) \cdot \frac{d}{d C_{t-1}}\left[W_{c} C_{t-1}+W_{x} X_{t}\right]=\\ & \tanh ^{\prime}\left(W_{c} C_{t-1}+W_{x} X_{t}\right) \cdot W_{c} \end{aligned}$

将该式代入上式有：

$\frac{\partial E_{k}}{\partial W}=\frac{\partial E_{k}}{\partial H_{k}} \frac{\partial H_{k}}{\partial C_{k}}\left(\prod_{t=2}^{k} \tanh ^{\prime}\left(W_{c} C_{t-1}+W_{x} X_{t}\right) \cdot W_{c}\right) \frac{\partial c_{1}}{\partial W}$