Rethink LSTM&GRU

Last_xuan1

已于 2023-09-10 21:13:04 修改

阅读量599

点赞数

分类专栏：深度学习文章标签： python

于 2023-09-10 21:10:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43391383/article/details/132795406

版权

深度学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

LSTM 设计思想

在这里插入图片描述
姑且不看偏置。 $W$ 和 $U$ 是加权的矩阵，写模型的时候用 nn.Linear(in_dim, out_dim) 就成； $\sigma$ 是 Sigmoid 函数

第一条，遗忘门，定义为有多少内容需要被遗忘；
第二条：输入门，定义为有多少输入值有多少能进入到 RNN 模型里；
第三条：输出门，定义为有多少内容能够成为输出值

这三个 0 到 1 的值，是聚合当前的输入特征 $x_t$ 和上一时刻的隐藏状态 $h_{t-1}$ 所计算得到的。它们表示的意思是，聚合当前的输入信息以及记忆信息（之前的信息），来决定模型不同的位置有多少比例保留下来。

第四条：表示 “当前信息”，使用 tanh 映射到 -1到 1之间；
第五条：表示 “当前的记忆信息”，根据上一时刻的信息有多少被遗忘以及当前输入有多少能进入所聚合得到；
第六条：表示 隐藏状态，由当前的记忆信息的一定比例计算得到

从这六条式子中，一定要知道，LSTM 接收 3 个输入值分别为 $x_t$ 、 $h_{t-1}$ 和 $c_{t-1}$
根据 LSTM 由三个输入，可以设计一个 Gate Fusion Module，输入三个 Tensor 聚合得到一个 Tensor，用 tensor. Repeat(x,y,z) 来对其维度。这样做可以简单聚合不同模态的信息

GRU

在这里插入图片描述
理解起来和前者的叙述类似

最终要的地方是，可以作为 Gate Fusion，所设计的 Gate Fusion 以两个 tensor 作为输入，就用 GRU 这一套计算公式，如果以三个 tensor 作为输入，就用 LSTM 这一套公式，剩下的对齐维度跑通 forward 函数就行

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Rethink LSTM&GRU

它们表示的意思是，聚合当前的输入信息以及记忆信息（之前的信息），来决定模型不同的位置有多少比例保留下来。从这六条式子中，一定要知道，LSTM 接收 3 个输入值分别为。这三个 0 到 1 的值，是聚合当前的输入特征。是加权的矩阵，写模型的时候用。是 Sigmoid 函数。和上一时刻的隐藏状态。理解起来和前者的叙述类似。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。