RNN图解

cloudless_sky

已于 2022-04-11 15:01:54 修改

阅读量938

点赞数 1

分类专栏：深度学习文章标签： RNN

于 2022-04-11 10:30:59 首次发布

本文链接：https://blog.csdn.net/cloudless_sky/article/details/124092070

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

来自youtube视频 https://www.youtube.com/watch?v=UNmqTiOnRfg
RNN（递归神经网络）
我们知道人类并不是从零开始思考东西，就像你读这篇文章的时候，你对每个字的理解都是建立在前几个字上面。你读完每个字后并不是直接丢弃然后又从零开始读下一个字，因为你的思想是具有持续性的，很多东西你要通过上下文才能理解。然而传统的神经网络并不能做到持续记忆理解这一点，这是传统神经网络的主要缺点。举个例子，你打算使用传统的神经网络去对电影里每个时间点发生的事情进行分类的时候，传统的神经网络先让不能使用前一个事件去推理下一个事件。RNN（递归神经网络）可以解决这个问题。他们是带有循环的神经网络，允许信息在其中保留。
在这里插入图片描述
做饭顺序：苹果派、汉堡、鸡
如果天气晴朗就出去玩不做饭，吃昨天剩下的饭；如果下雨，就做一道新菜；

在这里插入图片描述
这是个循环结构，昨天的输出（苹果派），结合今天的天气（下雨），就可以得出今天的饭（汉堡）。

箭头的细节是：

如何训练RNN？–通过error函数，梯度下降，不断减小error。

公式理解：
在这里插入图片描述
输入输出的序列是具有相同的时间长度的，其中的每一个权值都是共享的（不要被链式形状误导，本质上只有一个cell）。

拓展：
LSTM：来自https://blog.csdn.net/cristiano20/article/details/105734183
有时候，我们只需要当前的信息来完成当前的任务。举个例子，一个语音模型试图基于之前的单词去预测下一个单词。如果我们尝试预测“the clouds are in the sky”，我们不需要太多的上下文信息——很明显最后一个单词会是sky。在像这样不需要太多的相关信息的场合下，RNN可以学习到之前使用的信息。但是我们要注意，也有很多场景需要使用更多的上下文。当我们试图去预测“I grew up in France… I speak fluent French”这句话的最后一个单词，最近的信息会表明这应该是一种语言的名字，但是如果我们需要知道具体是哪一种语语言，我们需要France这个在句子中比较靠前的上下文信息，相关信息和需要预测的点的间隔很大的情况是经常发生的。不幸的是，随着间隔变大，RNN变得无法连接到太前的信息。
LSTM通过决定忘记什么、记住什么、更新哪些信息来决定何时以及如何在每个时间步骤转换记忆。这就是LSTMs如何帮助存储长期记忆，它能够学习长期依赖。

在这里插入图片描述

LSTM的核心之处就是它的cell state(神经元状态)，在下图中就是那条贯穿整个结果的水平线。这个cell state就像是一个传送带，他只有很小的线性作用，但却贯穿了整个链式结果。信息很容易就在这个传送带上流动但是状态却不会改变。cell state上的状态相当于长期记忆，而下面的ht则代表短期记忆。
在这里插入图片描述
LSTM有能力删除或者增加cell state中的信息，这一个机制是由被称为门限的结构精心设计的。
门限是一种让信息选择性通过的方式，它们是由sigmoid神经网络层和逐点相乘器做成的。
忘记门：ft借助sigmoid函数映射到了0-1之间的数，**0表示全部忘记，1表示都不忘记**。

在这里插入图片描述

更新细胞状态：遗忘的+更新的，得到更新的细胞状态

在这里插入图片描述
输出门：输出下一个LSTM单元的隐藏层输出

在这里插入图片描述

GRU:
长短期记忆网络（LSTM）在RNN的基础上，通过引入门控操作解决了其梯度爆炸的问题，而GRU网络实际上是LSTM网络一种较为成功的变体。

对比一般的神经网络，GRU网络收敛速度快且不容易发生梯度消失的情况，主要原因是该网络复杂的门控单元（细胞状态）通过偏置和相关参数来实时和灵活的调整激活函数的输入，进而控制门的开启和关闭，保存和更新有用的信息，将过程中的梯度进行了抵消，使得GRU深度门控网络具有高效的性能，适合于处理时间序列中间隔和延迟非常长的事件，如预测风速，入库径流，未来天气状况、温度湿度等。GRU神经网络结构如图1中所示。
在这里插入图片描述