深度学习-循环神经网络（RNN）

weixin_40826634

已于 2023-01-06 10:44:18 修改

阅读量897

点赞数

分类专栏：深度学习文章标签：深度学习 rnn 人工智能

于 2022-12-06 18:39:37 首次发布

本文链接：https://blog.csdn.net/weixin_40826634/article/details/128206890

版权

深度学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

1. 简介
RNN(Recurrent Neural Network) $\color{blue}{是一组用于处理序列数据的神经网络}$ 。序列数据的特点是后面的数据跟前面的数据有关系，是一种按照先后顺序排列的数据。如你需要预测一个句子中的下一个字，知道前边的字会是很有帮助的。一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出。
RNN对序列特性的数据非常有效，它能够挖掘数据中的时序信息以及语义信息，大多应用于 $\color{blue}{语音识别、语言模型、机器翻译以及时序分析}$ 等NLP领域。
2. 网络结构
在这里插入图片描述
具体含义如下：
$x^{(t)}$ 代表在序列索引号 $t$ 时训练样本的输入，同样的， $x^{(t-1)}$ 和 $x^{(t+1)}$ 代表在序列索引号 $t - 1$ 和 $t + 1$ 时训练样本的输入；
$h^{(t)}$ 代表在序列索引号 $t$ 时模型的隐藏状态， $h^{(t)}$ 由 $x^{(t)}$ 和 $h^{(t-1)}$ 共同决定；
$o^{(t)}$ 代表在序列索引号 $t$ 时模型的输出。 $o^{(t)}$ 只由模型当前的隐藏状态 $h^{(t)}$ 决定；
$L^{(t)}$ 代表在序列索引号 $t$ 时模型的损失函数；
$y^{(t)}$ 代表在序列索引号 $t$ 时训练样本序列的真实输出；
U,W,V这三个矩阵是模型的线性关系参数，在整个RNN网络中是共享的。
基于上面的模型，得出RNN前向传播算法。
对于任意一个序列索引号 $t$ ，隐藏状态由 $h^{(t)}$ 由 $x^{(t)}$ 和 $h^{(t-1)}$ 得到： $h^{(t)}=\sigma(Ux^{(t)}+Wh^{(t-1)}+b)$
其中， $\sigma$ 为RNN的激活函数，一般为tanh，b为线性关系的偏倚。
序列索引号 $t$ 时模型的输出 $o^{(t)}$ 的表达式为：
$o^{(t)}=Vh^{(t)}+c$
最终序列索引号 $t$ 时我们的预测输出为：
$\overline{y^{(t)}}=\sigma(o^{(t)})$
通常RNN是识别类的分类模型，所以上面的激活函数一般是softmax
3. 反向传播
RNN的反向传播也叫做BPTT(Back-propagation through time)，反向传播的思路是通过梯度下降法一轮轮的迭代，得到合适的RNN模型参数 $U ， W ， V ， b ， c$ 。
为了简化描述，这里的损失函数用交叉熵损失函数，公式为：
$L=-\sum_{i=0}^n y_ilog\overline{y^{(t)}}$
对于RNN，由于在序列的每个位置都有损失函数，因此最终的损失 $L$ 为：
$L=\sum_{t=1}^TL^{(t)}$
使用随机梯度下降法训练RNN其实就是对 $U ， W ， V$ 求偏导，并不断调整它们以使 $L$ 尽可能达到最小的过程。现在假设我们我们的时间序列只有 $t_1，t_2，t_3$ 三段。我们对 $t_3$ 时刻的 $U ， W ， V$ 求偏导:
$\cfrac{\partial L^3}{\partial V}=\cfrac{\partial L^3}{\partial o^3} \cfrac{\partial o^3}{\partial V}$ $\cfrac{\partial L^3}{\partial U}=\cfrac{\partial L^3}{\partial o^3} \cfrac{\partial o^3}{\partial h_3} \cfrac{\partial h^3}{\partial U} + \cfrac{\partial L^3}{\partial o^3} \cfrac{\partial o^3}{\partial h_3} \cfrac{\partial h^3}{\partial h^2}\cfrac{\partial h^2}{\partial U} + \cfrac{\partial L^3}{\partial o^3} \cfrac{\partial o^3}{\partial h_3} \cfrac{\partial h^3}{\partial h^2}\cfrac{\partial h^2}{\partial h^1}\cfrac{\partial h^1}{\partial U}$ $\cfrac{\partial L^3}{\partial W}=\cfrac{\partial L^3}{\partial o^3} \cfrac{\partial o^3}{\partial h_3} \cfrac{\partial h^3}{\partial W} + \cfrac{\partial L^3}{\partial o^3} \cfrac{\partial o^3}{\partial h_3} \cfrac{\partial h^3}{\partial h^2}\cfrac{\partial h^2}{\partial W} + \cfrac{\partial L^3}{\partial o^3} \cfrac{\partial o^3}{\partial h_3} \cfrac{\partial h^3}{\partial h^2}\cfrac{\partial h^2}{\partial h^1}\cfrac{\partial h^1}{\partial W}$
可以看出对于求 $V$ 偏导并没有长期依赖，但是对于 $U ， W$ 求偏导，会随着时间序列产生长期依赖。因为 $h^{(t)}$ 随着时间序列向前传播，而 $h^{(t)}$ 又是 $U ， W$ 的函数。