LSTM模型理论总结（产生、发展和性能等）

最新推荐文章于 2025-03-28 17:57:59 发布

置顶

shincling

最新推荐文章于 2025-03-28 17:57:59 发布

阅读量10w+

点赞数 35

分类专栏：深度学习文章标签： lstm 深度学习 RNN Theano

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shincling/article/details/49362161

版权

Proclaimation:

第一篇博客点击打开链接之后，对LSTM进行了一个较为深入的学习。首先从理论入手，深读了提出模型的原文，大概粗看了二十多篇Paper，关于RNN的问题的产生、LSTM模型的提出和原理，反传的推导之类，还有最近的LSTM的典型应用和性能分析等等。这个报告在我实验室内部小组和其他的小组两次分享过，这边再做一个总结写成博客，跟大家一同探讨。坦率地说，确实是越看越觉得新问题更多。

在这里感谢之前看LSTM的时候入门的两篇博客的作者，

RNN以及LSTM的介绍和公式梳理以及

LSTM简介以及数学推导(FULL BPTT) 。

注：这篇博客侧重于对LSTM的理论进行阐述，并不会侧重于模型的讲解，需要一定的对LSTM和RNN的熟悉可能会更好的阅读博客。

LSTM理论推导总结

目录

1. 传统RNN的问题：梯度的消失和爆发

2. LSTM对问题的解决方式

3. LSTM对模型的设计

4. LSTM训练的核心思路和推导

5. 近期LSTM的模型的改进

6. LSTM的工作特性的研究

7. 一些可能存在的问题

8. 总结

9. 参考文献

1.传统RNN模型的问题：梯度的消失和爆发

本文中采用的同样的RNN的模型可以如图，其中net通常是激活函数之前的各个层的输入与权重的线性组合。

注：在LSTM原文（97年）中，以及相应一大批文献中，角标的顺序与现在我们通常写的相反。如：Wij代表从 j到i 。

接下来的推导主要源自LSTM的作者的论文《THE VANISHING GRADIENT PROBLEM DURING recurrent neural networks and problem solutions》

以及作者在提出LSTM的论文的前半部分也有一样的内容。

先看一下比较典型的BPTT（Back propgation through time)一个展开的结构，如下图，这里只考虑了部分图。

对于t时刻的误差信号计算如下：

推导公式如下：

上面的公式在整个BPTT乃至整个BP网络里都是非常常见的了。具体推导如下，做个演示：

那么如果这个误差信号一直往过去传呢，假设任意两个节点u, v他们的关系是下面这样的：

</

最低0.47元/天解锁文章

博客等级

码龄10年

22
原创

128
点赞

340
收藏

83
粉丝

关注

私信

热门文章

分类专栏

深度学习 8篇
linux 1篇
机器学习 2篇
python 5篇
强化学习 1篇

展开全部收起

最新评论

关于python数组对象“=”的小陷阱
&&CQ: 二维数组不行呀博主，只能解决一维数组的这种问题
python机器学习包mlxtend的安装和配置
独往北陌: 请问包mlxtend的安装具体要加上哪几行代码啊？我小小小白真的看了文章也看不到啊
Pytorch 读取参数错误 RuntimeError: cuda runtime error (10) : invalid device ordinal
从火星学到地球: 博主您好。我是台式电脑，只有一张显卡，我改成了gpu0 但是还是报错 File "main.py", line 31, in <module> p = Processor(sys.argv[2:]) File "E:\Project\code\ST-GCN\processor\processor.py", line 29, in __init__ self.init_environment() File "E:\Project\code\ST-GCN\processor\processor.py", line 38, in init_environment super().init_environment() File "E:\Project\code\ST-GCN\processor\my_io.py", line 61, in init_environment torchlight.occupy_gpu(gpus) File "E:\ANAinstall\lib\site-packages\torchlight-1.0-py3.7.egg\torchlight\gpu.py", line 35, in occupy_gpu RuntimeError: CUDA error: invalid device ordinal [code=python] # gpu if self.arg.use_gpu: gpus = torchlight.visible_gpu(self.arg.device) torchlight.occupy_gpu(gpus) self.gpus = gpus self.dev = "cuda:0" else: self.dev = "cpu" [/code][code=python] [/code]
Pytorch 读取参数错误 RuntimeError: cuda runtime error (10) : invalid device ordinal
爱吃黑豆的白兔子: 您好，我现在也是遇到这个问题。我查看了serialization.py文件后发现有这句话，但是我不知道怎么改才能解决这个问题呢？麻烦您告知呢
LSTM模型理论总结（产生、发展和性能等）
织网者Eric: 李菲菲是谁？我只认识李飞飞

大家在看

最新文章

目录

展开全部

收起

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。