LSTM的介绍包含与simpleRRN的区别与联系

cdy艳0917

于 2021-08-17 17:40:05 发布

阅读量640

点赞数 1

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_42239797/article/details/119761334

版权

RNN
我们知道,RNN是在有序的序列中学习的，为了记住这个数据，RNN会像人一项样产生相关记忆，在反向过程中存在参数W，由于参数W的大小，当参数W为一个零点几的数是，经过无数次的循环，最后反馈得到的梯度可能为零，也就是经常说的梯度消失；但如果W是一个一点多的数据，多次之后就会成为一个万亿大的数，这就是通常说的梯度爆炸。在这里插入图片描述
后来的simpleRRN采用一个tanth函数，将数据转化为负一到正一之间的数据。

但RNN还有一个问题，就是短期记忆，导致之前的数据被遗忘，为了解决被遗忘和梯度消失的问题，产生了LSTM，LSTM存在四个参数矩阵，利用传输带避免梯度消失问题，可以有更长的记忆。
我觉得B站有个同学讲的很详细，具体的情况大家可以参考，内容不长，讲的很细致。https://www.bilibili.com/video/BV1fp4y1t7Xb?p=2
推荐给大家

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。