长短期记忆网络LSTM

最新推荐文章于 2024-01-09 01:11:21 发布

垃圾桶里也挺好

最新推荐文章于 2024-01-09 01:11:21 发布

阅读量429

点赞数

文章标签： lstm rnn 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/maelee/article/details/125297416

版权

长短期记忆网络LSTM

上一回我们学习了RNN循环神经网络，而LSTM网络是对RNN网络做的一个改良。
由于RNN模型中存在梯度爆炸与梯度消失，尤其是梯度消失的问题非常严重，针对这个问题，LSTM做了改良。
RNN是想把所有的信息都记住，不论是有没有用的，这样就会导致遗忘掉许多东西，而LSTM设计了一个记忆细胞，具备选择性记忆的功能，可以选择记忆重要信息，过滤掉噪声信息，减轻记忆负担。

一.前向传播

1.LSTM

LSTM：
在这里插入图片描述

（1）单元结构

Ht-1可以理解为上一个事假的权重得分。
在这里插入图片描述

（2）原理

在这里插入图片描述

遗忘门——forget gate:

通过乘法运算，遗忘掉矩阵中0,保留1（清空不相关的学习到的知识）。
在这里插入图片描述

更新门——update gate:

过滤掉无关的知识
在这里插入图片描述

Ct:

生成新知识在这里插入图片描述

输出门——output gate:

Ot：选取一部分知识解题
tanh：将学习知识转化为解题能力
在这里插入图片描述

2.RNN的梯度消失

RNN结构
在这里插入图片描述

Wx梯度反向传播公式推导：

当t越多，Ws连乘越来越趋近于无穷大（Wx很大时）或者是0（Wx很小时）。

3.LSTM的反向传播

通俗的讲就是在RNN的Wx推导出的公式，把连乘变成了加法，（RNN的梯度下降只有一条路径，而LSTM有多条路径）降低了梯度消失的影响。
在这里插入图片描述

也可以这么理解：∂C(t)/∂C(t-1)是多个W线性相加的综合结果，其中某个W很大或很小，也没关系，可以由其他W进行协调，当模型觉得有必要进行记忆的时候，就会尽可能使得∂C(t)/∂C(t-1)=1；
RNN首先它的∂S(t)/∂S(t-1)只包含一个W，并且是Wⁿ，当W很大或很小时，就会导致梯度爆炸或梯度消失
那也就是说LSTM这个记忆细胞的偏导更加有泛化能力，是综合了多种W，当某些W不正常时，其他W还是正常的。这让我想起了，我之前看的一篇博客，梯度正常+梯度消失=梯度正常。因为记忆细胞来自多条路径，因此它不受少部分不正常的W影响。
在这里插入图片描述

4.代码

关于LSTM输入，输出，参数等大家可以自行搜索。
=>博客指路：https://blog.csdn.net/weixin_41744

最低0.47元/天解锁文章

垃圾桶里也挺好

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
长短期记忆网络LSTM

上一回我们学习了RNN循环神经网络，而LSTM网络是对RNN网络做的一个改良。由于RNN模型中存在梯度爆炸与梯度消失，尤其是梯度消失的问题非常严重，针对这个问题，LSTM做了改良。RNN是想把所有的信息都记住，不论是有没有用的，这样就会导致遗忘掉许多东西，而LSTM设计了一个记忆细胞，具备选择性记忆的功能，可以选择记忆重要信息，过滤掉噪声信息，减轻记忆负担。LSTM：Ht-1可以理解为上一个事假的权重得分。通过乘法运算，遗忘掉矩阵中0,保留1（清空不相关的学习到的知识）。过滤掉无关的知识生成新知
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。