【深度之眼tensorflow2.0框架项目班】31.LSTM和GRU动图理解

最新推荐文章于 2023-02-27 14:39:54 发布

一只很菜很菜的tfer

最新推荐文章于 2023-02-27 14:39:54 发布

阅读量350

点赞数

分类专栏： tensorflow2.0学习笔记文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/weixin_39122088/article/details/107046542

版权

tensorflow2.0学习笔记专栏收录该内容

50 篇文章 24 订阅

订阅专栏

在这里插入图片描述
原文地址
因为传统的RNN模块会受到短期记忆的影响，当序列过长的时候，靠前的信息很难传递到后边的时间步，因此，当我们使用RNN处理文本进行预测的时候，会遗漏很多重要信息，除此之外，当网络过长的时候，反向传播的过程中会出现梯度消失的问题，梯度消失以后，参数也就不会在更新。因此我们有了LSTM和GRU。
LSTM 和 GRU 是解决短时记忆问题的解决方案，它们具有称为“门”的内部机制，可以调节信息流。

在这里插入图片描述

在信息随着时间传入网络的时候，“门”可以知道哪些信息需要保留，哪些需要删除，就像我们人一样，很多时候忘记了一篇文章的全部内容，但是却能大概的说出这篇文章的重点。LSTM的核心在于他的细胞状态和“门”结构，细胞状态是信息传输的路径，让信息能够在序列种传递下去，我们可以将他看作是网络的“记忆”，而信息的删除和添加需要我们通过“门”来实现。

1.sigmoid
门结构中包含着 sigmoid 激活函数。Sigmoid 激活函数与 tanh 函数类似，不同之处在于 sigmoid 是把值压缩到 0-1 之间而不是 -1~1 之间。这样的设置有助于更新或忘记信息，因为任何数乘以 0 都得 0，这部分信息就会剔除掉。同样的，任何数乘以 1 都得到它本身，这部分信息就会完美地保存下来。这样网络就能了解哪些数据是需要遗忘，哪些数据是需要保存。

2.遗忘门
遗忘门的功能是决定应丢弃或保留哪些信息。来自前一个隐藏状态的信息和当前输入的信息同时传递到 sigmoid 函数中去，输出值介于 0 和 1 之间，越接近 0 意味着越应该丢弃，越接近 1 意味着越应该保留。在这里插入图片描述

3.输入门
输入门用于更新细胞状态。首先将前一层隐藏状态的信息和当前输入的信息传递到 sigmoid 函数中去。将值调整到 0~1 之间来决定要更新哪些信息。0 表示不重要，1 表示重要。其次还要将前一层隐藏状态的信息和当前输入的信息传递到 tanh 函数中去，创造一个新的侯选值向量。最后将 sigmoid 的输出值与 tanh 的输出值相乘，sigmoid 的输出值将决定 tanh 的输出值中哪些信息是重要且需要保留下来的。
在这里插入图片描述

4.细胞状态
下一步，就是计算细胞状态。首先前一层的细胞状态与遗忘向量逐点相乘。如果它乘以接近 0 的值，意味着在新的细胞状态中，这些信息是需要丢弃掉的。然后再将该值与输入门的输出值逐点相加，将神经网络发现的新信息更新到细胞状态中去。至此，就得到了更新后的细胞状态。
在这里插入图片描述

5.输出门
输出门用来确定下一个隐藏状态的值，隐藏状态包含了先前输入的信息。首先，我们将前一个隐藏状态和当前输入传递到 sigmoid 函数中，然后将新得到的细胞状态传递给 tanh 函数。最后将 tanh 的输出与 sigmoid 的输出相乘，以确定隐藏状态应携带的信息。再将隐藏状态作为当前细胞的输出，把新的细胞状态和新的隐藏状态传递到下一个时间步长中去。

在这里插入图片描述

GRU
知道了 LSTM 的工作原理之后，来了解一下 GRU。GRU 是新一代的循环神经网络，与 LSTM 非常相似。与 LSTM 相比，GRU 去除掉了细胞状态，使用隐藏状态来进行信息的传递。它只包含两个门：更新门和重置门。

在这里插入图片描述

1.更新门

更新门的作用类似于 LSTM 中的遗忘门和输入门。它决定了要忘记哪些信息以及哪些新信息需要被添加。

2.重置门

重置门用于决定遗忘先前信息的程度。

这就是 GRU。GRU 的张量运算较少，因此它比 LSTM 的训练更快一下。很难去判定这两者到底谁更好，研究人员通常会两者都试一下，然后选择最合适的。

一只很菜很菜的tfer

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【深度之眼tensorflow2.0框架项目班】31.LSTM和GRU动图理解

原文地址因为传统的RNN模块会受到短期记忆的影响，当序列过长的时候，靠前的信息很难传递到后边的时间步，因此，当我们使用RNN处理文本进行预测的时候，会遗漏很多重要信息，除此之外，当网络过长的时候，反向传播的过程中会出现梯度消失的问题，梯度消失以后，参数也就不会在更新。因此我们有了LSTM和GRU。 LSTM 和 GRU 是解决短时记忆问题的解决方案，它们具有称为“门”的内部机制，可以调节信息流。在信息随着时间传入网络的时候，“门”可以知道哪些信息需要保留，哪些需要删除，就像我.
复制链接

扫一扫