LSTM与GRU的扼要理解

最新推荐文章于 2024-06-26 10:26:40 发布

Saphon

最新推荐文章于 2024-06-26 10:26:40 发布

阅读量683

点赞数

分类专栏：机器学习文章标签： LSTM GRU RNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Saphon/article/details/98358340

版权

本文介绍了LSTM和GRU两种门控循环神经网络，重点阐述了遗忘门、输入门、输出门以及更新门、重置门的工作原理。LSTM通过三个门来筛选信息，而GRU则简化为两个门，减少了参数量，降低了过拟合风险。此外，文章还提到了基本RNN的局限性，因其没有门结构，易受梯度消失问题影响。

摘要由CSDN通过智能技术生成

LSTM：三个门 - 遗忘门、输入门、输出门

门可以理解为mask，用来过滤筛选信息。
LSTM细胞结构
单次输入、细胞状态、单次输出，均是列向量。即总的输入是一连串的列向量。

解释：除去最右边的蓝色tanh，其他每一个激活函数图标，都代表着 f(Wx+b) 即激活一个线性运算。三个门共四个要激活的线性运算，代表着四对可训练的矩阵W和截距b。这四对参数才是LSTM训练过程中真正在训练的东西。由于细胞状态c与隐状态h的维数相同（记做k），与输入的维数i无关，故四个矩阵W均是k*(k+i)维。

注意1：k与i均可在搭建时设定，即同CNN一样，LSTM也有改变特征维数的功能。

注意2：tanh输出-1到1，sigmoid输出0到1，所以在不同时候使用，起到不同效果。

参数量：4k(k+i)+4k （即4个W和4个b）

问题思考：细胞状态c和隐状态h貌似有部分功能重复的嫌疑？

问题解决：新出的GRU合并了隐状态和细胞状态。与LSTM效果差不多，但参数更少，更不容易过拟合。

GRU：两个门 - 更新门、重置门

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
LSTM与GRU的扼要理解

LSTM：三个门 - 遗忘门、输入门、输出门门可以理解为mask，用来过滤筛选信息。单次输入、细胞状态、单次输出，均是列向量。即总的输入是一连串的列向量。解释：除去最右边的蓝色tanh，其他每一个激活函数图标，都代表着 f(Wx+b) 即激活一个线性运算。三个门共四个要激活的线性运算，代表着四对可训练的矩阵W和截距b。这四对参数才是LSTM训练过程中真正在训练的东西。由于细胞状态c与隐状态...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。