深度学习笔记之循环神经网络(五)循环神经网络的反向传播过程

静静的喝酒

已于 2023-05-25 13:42:39 修改

阅读量593

点赞数

分类专栏：深度学习机器学习文章标签：深度学习神经网络反向传播过程递归神经网络

于 2023-05-23 16:09:12 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/130821615

版权

深度学习笔记之循环神经网络——循环神经网络的反向传播过程

引言

引言

上一节介绍了 $\text{Softmax}$ 回归的反向传播过程。本节将介绍循环神经网络的反向传播过程。

回顾：循环神经网络的前馈计算过程

场景构建

已知某特定时刻的循环神经网络神经元表示如下：
在这里插入图片描述
其中：

$x_t$ 表示数据在 $t$ 时刻的输入，其维度格式为 $x_t \in \mathbb R^{n_x \times m \times 1}$ 。其中 $n_x$ 表示当前时刻输入向量的维数； $m$ 表示样本数量； $1$ 则表示当前所在时刻 $t$ 。
- 输入向量可能是‘词向量’，或者是其他描述序列单位的向量。而 $n_x$ 描述该向量的大小。
- $m$ 可表示为当前 $\text{Batch}$ 内的样本数量。
- 对应完整序列数据 $\mathcal X$ 可表示为如下形式。其中 $\mathcal T$ 表示输入时刻的具体数量。
  $\mathcal X = (x_1,x_2,\cdots,x_t,x_{t+1},\cdots,x_{\mathcal T})^T \in \mathbb R^{n_x \times m \times \mathcal T}$
$h_t$ 表示 $t$ 时刻的序列信息，也是要传递到 $t + 1$ 时刻的值；它的维度格式表示为：
这里 $n_h$ 表示隐藏状态的维数大小;它由参数 $\mathcal W_{\mathcal H \Rightarrow \mathcal H},\mathcal W_{\mathcal H \Rightarrow \mathcal X}$ 决定; $h_{t+1} \in \mathbb R^{n_h \times m \times 1}$ 同理。
$h_t \in \mathbb R^{n_h \times m \times 1}$
对应的隐藏层矩阵 $\mathcal H \in \mathbb R^{n_h \times m \times \mathcal T}$ 。因为每一进入一个输入，都会得到一个相应更长的序列信息。因此 $\mathcal X,\mathcal H$ 共用同一个 $\mathcal T$ 。
$\mathcal O_{t+1}$ 表示数据传入后计算产生的预测值，它的维度格式表示为：
其中 $n_{\mathcal O}$ 表示预测输出结果的长度。
$\mathcal O_{t+1} \in \mathbb R^{n_{\mathcal O} \times m \times \mathcal 1}$
同理，对应的输出矩阵 $\mathcal O \in \mathbb R^{n_{\mathcal O} \times m \times \mathcal T_{\mathcal O}}$ ,这里的 $\mathcal T_{\mathcal O}$ 表示输出时刻的数量。需要注意的是， $\mathcal T_{\mathcal O}$ 和 $\mathcal T$ 是两个概念。输出的序列长度和输入长度无关，它与权重参数 $\mathcal W_{\mathcal H \Rightarrow \mathcal O}$ 相关。

前馈计算描述

为了方便描述，将上述过程中的序列下标表示为序列上标：
$x_t,h_t,h_{t+1},\mathcal O_{t+1} \Rightarrow x^{(t)},h^{(t)},h^{(t+1)},\mathcal O^{(t+1)}$

关于第 $t$ 时刻神经元的前馈计算过程表示如下：
需要注意的是，这里的 $h^{(t+1)},\mathcal O^{(t+1)}$ 表示对下一时刻信息的预测，而这个预测过程是在 $t$ 时刻完成的。

序列信息 $h^{(t+1)}$ 的计算过程：
$\begin{cases} \mathcal Z_1^{(t)} = \mathcal W_{h^{(t)} \Rightarrow h^{(t+1)}}\cdot h^{(t)} + \mathcal W_{x^{(t)} \Rightarrow h^{(t+1)}} \cdot x^{(t)} + b_{h^{(t+1)}} \\ \quad \\ h^{(t+1)} = \text{Tanh}(\mathcal Z_1^{(t)}) \end{cases}$
预测值 $\mathcal O^{(t+1)}$ 的计算过程：
关于后验概率 $\mathcal P_{model}[\mathcal O^{(t+1)} \mid x^{(t)},h^{(t+1)}]$ 本质上是一个分类任务——从该分布中选择概率最高的结果作为 $x^{(t+1)}$ 的结果，这里使用 $\text{Softmax}$ 函数对各结果对应的概率分布信息进行评估。
$\begin{cases} \mathcal Z_2^{(t+1)} = \mathcal W_{h^{(t+1)} \Rightarrow \mathcal O^{(t+1)}} \cdot h^{(t+1)} + b_{\mathcal O^{(t+1)}} \\ \quad \\ \begin{aligned} \mathcal O^{(t+1)} & = \text{Softmax}(\mathcal Z_2^{(t+1)}) \\ & = \frac{\exp \left\{\mathcal Z_2^{(t+1)}\right\}}{\sum_{i=1}^{n_{\mathcal O}}\exp \left\{\mathcal Z_{2;i}^{(t+1)}\right\}} \\ \end{aligned} \end{cases}$