深度学习笔记之循环神经网络(九)GRU的反向传播过程

最新推荐文章于 2024-06-19 16:36:01 发布

静静的喝酒

最新推荐文章于 2024-06-19 16:36:01 发布

阅读量1k

点赞数 2

分类专栏：机器学习深度学习文章标签：深度学习 GRU GRU的反向传播过程循环神经网络抑制梯度消失

本文链接：https://blog.csdn.net/qq_34758157/article/details/130985679

版权

本文详细介绍了GRU循环神经网络的前馈计算与反向传播过程，重点讨论了T时刻的反向传播路径，包括从T到T-1时刻的梯度传播。GRU相比于LSTM，减少了反向传播路径的数量和参数更新，降低了过拟合风险，同时利用更新门和重置门来缓解梯度消失问题。

摘要由CSDN通过智能技术生成

深度学习笔记之循环神经网络——GRU的反向传播过程

引言

引言

上一节介绍了门控循环单元 $(\text{Gate Recurrent Unit,GRU})$ ，本节我们参照 $\text{LSTM}$ 反向传播的格式，观察 $\text{GRU}$ 的反向传播过程。

回顾： $\text{GRU}$ 的前馈计算过程

GRU算法展开图
$\text{GRU}$ 的前馈计算过程表示如下：
为了后续的反向传播过程，将过程分解的细致一些。其中 $\widetilde{\mathcal Z}^{(t)},\widetilde{r}^{(t)}$ 分别表示更新门、重置门的线性计算过程。
$\begin{cases} \begin{aligned} & \widetilde{\mathcal Z}^{(t)} = \mathcal W_{\mathcal H \Rightarrow \mathcal Z} \cdot h^{(t-1)} + \mathcal W_{\mathcal X \Rightarrow \mathcal Z} \cdot x^{(t)} + b_{\mathcal Z} \\ & \mathcal Z^{(t)} = \sigma(\widetilde{\mathcal Z}^{(t)}) \\ & \widetilde{r}^{(t)} = \mathcal W_{\mathcal H \Rightarrow r} \cdot h^{(t-1)} + \mathcal W_{\mathcal X \Rightarrow r} \cdot x^{(t)} + b_{r} \\ & r^{(t)} = \sigma(\widetilde{r}^{(t)}) \\ & \widetilde{h}^{(t)} = \text{Tanh} \left[\mathcal W_{\mathcal H \Rightarrow \widetilde{\mathcal H}} \cdot (r^{(t)} * h^{(t-1)}) + \mathcal W_{\mathcal X \Rightarrow \widetilde{\mathcal H}} \cdot x^{(t)} + b_{\widetilde{\mathcal H}}\right] \\ & h^{(t)} = (1 -\mathcal Z^{(t)}) * h^{(t-1)} + \mathcal Z^{(t)} * \widetilde{h}^{(t)} \end{aligned} \end{cases}$

场景设计

上述仅描述的是 $\text{GRU}$ 关于序列信息 $h^{(t)}(t=1,2,\cdots,\mathcal T)$ 的迭代过程。各时刻的输出特征以及损失函数于循环神经网络相同：

使用 $\text{Softmax}$ 激活函数，其输出结果作为模型对 $t$ 时刻的预测结果：
$\begin{cases} \mathcal C^{(t)} = \mathcal W_{\mathcal H \Rightarrow \mathcal C} \cdot h^{(t)} + b_{h} \\ \hat y^{(t)} = \text{Softmax}(\mathcal C^{(t)}) \end{cases}$
关于 $t$ 时刻预测结果 $\hat y^{(t)}$ 与真实分布 $y^{(t)}$ 之间的偏差信息使用交叉熵 $(\text{CrossEntropy})$ 进行表示：
其中 $n_{\mathcal Y}$ 表示预测/真实分布的维数。
$\mathcal L^{(t)} = \mathcal L \left[\hat y^{(t)},y^{(t)}\right] = - \sum_{j=1}^{n_\mathcal Y} y_j^{(t)} \log \left[\hat y_j^{(t)}\right]$
所有时刻交叉熵结果的累加和构成完整的损失函数 $\mathcal L$ ：
$\begin{aligned} \mathcal L & = \sum_{t=1}^{\mathcal T} \mathcal L^{(t)}\\ & = \sum_{t=1}^{\mathcal T} \mathcal L \left[\hat y^{(t)},y^{(t)}\right] \end{aligned}$

反向传播过程

$\mathcal T$ 时刻的反向传播过程

以 $\mathcal T$ 时刻重置门 $\begin{aligned}\frac{\partial \mathcal L}{\partial \mathcal W_{\mathcal h^{(\mathcal T)} \Rightarrow \mathcal Z^{(\mathcal T)}}}\end{aligned}$ 的反向传播为例：

计算梯度 $\begin{aligned}\frac{\partial \mathcal L}{\partial \mathcal L^{(\mathcal T)}}\end{aligned}$ ：
其中仅有 $\mathcal L^{(\mathcal T)}$ 一项存在梯度，其余项均视作常数。
$\frac{\partial \mathcal L}{\partial \mathcal L^{(\mathcal T)}} = \frac{\partial}{\partial \mathcal L^{(\mathcal T)}} \left[\sum_{t=1}^{\mathcal T} \mathcal L^{(t)}\right] = 0 + 0 + \cdots + 1 = 1$
计算梯度 $\begin{aligned}\frac{\partial \mathcal L^{(\mathcal T)}}{\partial \mathcal C^{(\mathcal T)}}\end{aligned}$ ：
关于 $\text{Softmax}$ 激活函数与交叉熵组合的梯度描述，见循环神经网络—— $\text{Softmax}$ 函数的反向传播过程一节，这里不再赘述。
$\begin{aligned} & \begin{cases} \mathcal L^{(\mathcal T)} = -\sum_{j=1}^{n_{\mathcal Y}}y_j^{(\mathcal T)} \log \left[\hat y_j^{(\mathcal T)}\right] \\ \hat y^{(\mathcal T)} = \text{Softmax}[\mathcal C^{(\mathcal T)}] \end{cases} \\ & \Rightarrow \frac{\partial \mathcal L^{(\mathcal T)}}{\partial \mathcal C^{(\mathcal T)}} = \hat y^{(\mathcal T)} - y^{(\mathcal T)} \end{aligned}$