循环神经网络(RNN)与长短期记忆网络(LSTM)

最新推荐文章于 2024-05-30 08:00:00 发布

Leon_winter

最新推荐文章于 2024-05-30 08:00:00 发布

阅读量7.3k

点赞数 5

分类专栏：深度学习文章标签：循环神经网络 RNN 长短期记忆网络 LSTM RNN的神经元

本文链接：https://blog.csdn.net/Leon_winter/article/details/89089458

版权

循环神经网络

摘要由CSDN通过智能技术生成

文章目录

循环神经网络(RNN)
长短期记忆网络(LSTM)

循环神经网络(RNN)

如果我们的数据是一个时间序列，且序列长短不一，在每一个时间点存在数据，如下 $<\dots , x_{t-2}, x_{t-1}, x_{t}, x_{t+1},x_{t+2}, \dots>$ 可以说不同时刻的数据相互之间十分可能存在某种联系。

对于这种数据，如果考虑使用DNN或者CNN，首先，DNN与CNN的batch维度是不起作用的，因为batch中的数据在前向传播是独立进行，反向传播仅仅把误差相加，DNN与CNN显然无法很好的学习batch中的数据在时间上的相关规律。另一方面，如果我们明确知道这种数据的时间连续性在前100个时间点内，我们可以增加DNN的输入神经元或CNN的输入通道数到100，把前100个时间点的数据当做特征字段 $x$ 输入，来得到该时间点的目标输出 $y$ 。但是实际应用中，序列长短不一(可能还不够100)，也有可能与超过100个时间点之前的数据相关系，这样我们的CNN和DNN就不好解决了，因此引入了RNN。

RNN网络结构

RNN的一个cell往往占据一个隐层，只有一个隐层的RNN其网络结构如下图左，按时间轴展开后就得到了右边的图像。

其中的 $h$ 所代表的模块即是RNN的cell，它有一个箭头(权重是 $W$ )指向自己，这就是"循环"二字的由来。一般看RNN要看其展开后的图像， $x$ 是网络的输入， $h$ ( $h i d d e n$ 的缩写)是隐藏层状态， $o$ 是网络的输出， $y$ 是期望输出， $L$ 就是 $y$ 与 $o$ 的损失，右上角的 $t$ 即是在 $t$ 时刻的数据，我们看 $t$ 时刻的隐藏层状态 $h^{(t)}$ ，它是由 $t$ 时刻的输入 $x^{(t)}$ 和 $t - 1$ 时刻的隐藏层状态 $h^{(t-1)}$ 共同决定，可见RNN存在同一隐层内部的传播，这在CNN和DNN这种前馈神经网络结构中是不存在的，正是由于这种隐层内的传播，让RNN能够综合学习之前时刻的数据，来输出当前时刻的数据。

上图中的权重 $U ， V ， W$ ，对于展开后的RNN，是参数共享的，不同时刻的 $x 、 h 、 o$ 在计算时，共享相同的权重值。

在不同的时刻，RNN有不同的输入 $x^{(t)}$ ，同样就也有对应的输出 $y^{(t)}$ ，但有时我们可能在输入完一个序列 $x^{(1)}\dots x^{(n)}$ 后，只要最后的输出 $y^{(n)}$ ，或者只要部分时刻的输出，或者有其它更复杂的情况，根据输入输出，我们可以对RNN进行分类。

当然RNN一般都不会只有一个隐层，我们可以通过叠加RNN cell来增加RNN的深度，构成深度RNN结构，一般RNN的深度越深，学习能力越强，但是学习速率会下降。下面给出一个有5个隐层的RNN结构。

红色部分表示RNN的输入部分，绿色部分表示RNN的输出部分。不难看出来，RNN的输入包含两个部分，除了数据输入 $x$ 外，我们还要初始化隐藏层状态的输入 $h$ ，同理，RNN的输出也包含两个部分。

RNN的神经元个数

我们在比较不同的神经网络对某一具体问题的效果时，需要把隐层的神经元个数设置成一样的。我一直认为RNN是没有神经元这个概念的，只有RNN cell这个概念，但是一个前辈明确指出RNN是有神经元的概念。针对RNN的神经元个数，网上有不同的说法，blog认为RNN的神经元个数近似可以看成，待更新参数(权值和偏置)的个数，还有人认为RNN某一隐层的神经元个数就是把RNN展开后，RNN结构在时间上的迭代次数，即输入的时间序列的长度。这两种定义都不是很到位，这样定义神经元，无法很好地对接DNN中的神经元。

在说RNN的神经元之前，先说明一下RNN的输入 $x$ 的size。

RNN的输入 $x$ 的size可以表示成 $(b a t c h s i z e, s e q u e n c e l e n g t h, i n p u t s i z e)$ ，如果我们的batch size是10，对于batch中的一条记录，其包含的时间步总长sequence length是20，即我们的时间序列长是20，batch中的一条记录在某一时刻的特征总数是30，那么我们输入的size是 $(10, 20, 30)$ ，同样的，每一个隐藏层的隐藏状态 $h$ 可以定义成 $(b a t c h s i z e, s e q u e n c e l e n g t h, h i d d e n s i z e)$ ，

我们把只有一个隐层的RNN，其 $t - 1$ 时刻到 $t$ 时刻展开的更加彻底，见下图：

m就是 $x$ 的size中的 $i n p u t s i z e$ ，n就是 $h$ 的size中的 $h i d d e n s i z e$ ，这样我们就可以按照看DNN结构的方式，来看RNN的 $t$ 时刻的结构，可见隐层的神经元个数就是 $h i d d e n s i z e$ 。