瞎聊深度学习——一文了解各种循环神经网络

最新推荐文章于 2023-05-06 16:01:49 发布

二哥不像程序员

最新推荐文章于 2023-05-06 16:01:49 发布

阅读量735

点赞数 2

分类专栏：深度学习文章标签： RNN LSTM

本文链接：https://blog.csdn.net/qq_35164554/article/details/90576459

版权

深度学习专栏收录该内容

21 篇文章 8 订阅

订阅专栏

循环神经网络的概念

在了解循环神经网络之前，你一定了解过前馈神经网络和卷积神经网络，循环神经网络相对于这两种网络来说可能要更有“个性”一些。循环神经网络的独特之处就在于它不仅考虑到了当前的输入，而且对前面输入的内容有记忆功能，可以说其他神经网络的隐藏层是无连接的，而循环神经网络的隐藏层之间是有连接的，隐藏层的输入不仅包含输入层的输出，同时也包含了上一时刻隐藏层的输出。

循环神经网络的结构如下图所示：

如图所示Xt代表输入，A便是隐藏层，由于隐藏层的输入要包含着上一时刻隐藏层的输出，也就构成了图中的循环结构，ht表示输出。

如果对于上图中表示的神经网络还是不能很好的理解，我们可以把它拆开来看：

拆开后可以认为是相同网络的多重叠加结构，每一个网络都把消息传给他的继承者。

具体的细节结构图如下所示：

$s_t=f\left(Ux_t+Ws_\left(t-1\right)\right)$

y=g(Vs_t)

参数说明如下：

xt：t时刻的输入
st：t时刻的隐藏状态
f：激活函数（一般用tanh和ReLu）
U，V，W：网络参数（和前馈网络有所不同，RNN共享同一组网络参数）
g：激活函数

BPTT算法

通过上面的细节结构图，我们可以得到RNN的前向传播过程，那RNN中的网络参数U，V，W又是怎么进行更新的呢

每一次的输出值Ot都会产生一个误差值Et，总的误差就可以表示为：

$E=\sum _te_t$

那么我们的损失函数可以用交叉熵损失函数或者平方差损失函数来表示。

由于神经网络需要考虑输入的时间顺序，所以在进行反向传播的时候我们也要考虑时间带来的影响，所以我们把这种由BP网络更改后的算法叫做Backpropagation Through Time（BPTT），该算法是将输出端的误差进行反向传递，并通过梯度下降法进行更新。

BPTT算法的推导可以参考：https://www.cnblogs.com/wacc/p/5341670.html

双向RNN（BRNN）的结构介绍

在传统的RNN中，我们只考虑到了当前输入的前一输入，即只考虑到了“上文”，并没有考虑到之后的内容。这样可能会造成错过一些重要的信息，使得我们得到的信息不够准确。双向RNN不仅从前往后(如下图黄色实箭头)保留该输入前面的输入的重要信息，而且从后往前(如下图黄色虚箭头)去保留该输入后面的输入的重要信息，然后基于这些重要信息进行预测该输入。双向RNN模型如下：

双向RNN可以用如下的公式来表示：

正向RNN： $s_t_1=f\left(U_1x_t_1+W_1s_\left(t_1-1\right)\right)$

反向RNN： $s_t_2=f\left(U_2x_t_2+W_2s_\left(t_2-1\right)\right)$

输出： y=g(V[s_t_1,s_t_2])

注：由于我们得了前文的重要信息St1和后文的重要信息St2，所以我们得到的重要信息是二者拼接的结果即：[st1,st2]。

深层RNN（DRNN）的简单介绍

深层RNN网络是在RNN模型多了几个隐藏层，是因为考虑到当信息量太大的时候一次性保存不下所有重要信息，通过多个隐藏层可以保存更多的重要信息，正如我们看电视剧的时候也可能重复看同一集记住更多关键剧情。同样的，我们也可以在双向RNN模型基础上加多几层隐藏层得到深层双向RNN模型。

注：每一层循环体中参数是共享的，但是不同层之间的权重矩阵是不同的。

长短期记忆网络（LSTM）极其变体

LSTM是一种特殊的RNN，它能够学习长时间依赖。假设我们在看一个长约两个小时的电影，在看到一小时的时候，你可能只能回忆起10分钟之前的情节，这就是RNN所能带来的记忆功能，而LSTM可以看做是对这个记忆的升级版，虽然不能够记得所有的剧情，但是能过记忆从开始到现在的重要情节，这就是LSTM所带来的升级后的记忆功能。

下面通过对比标准RNN来讲解一下LSTM：

标准RNN：