【LSTM理解】对长短期记忆网络的理解与梳理

最新推荐文章于 2024-06-18 19:07:26 发布

Occupy微宇星

最新推荐文章于 2024-06-18 19:07:26 发布

阅读量516

点赞数 3

分类专栏：深度学习文章标签： python 深度学习 lstm

本文链接：https://blog.csdn.net/OccupyLDY/article/details/121545089

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文详细介绍了LSTM（长短期记忆网络）与RNN的区别，强调了LSTM在外结构上增加的记忆单元，并解析了LSTM的内部运算机制，包括遗忘门、输入门、输出门和候选值状态。通过权重共享的机制，LSTM解决了RNN的梯度消失问题，提高了对序列数据的处理能力。虽然没有涉及反向传播的细节，但整体上帮助读者理解了LSTM的核心概念。

摘要由CSDN通过智能技术生成

最近在学习RNN和LSTM，在一大波博客的学习阅览后，自己对lstm也有些理解。

LSTM网络是循环神经网络（RNN）中的一种特殊模型，同样具备循环神经网络的递归属性。同时，LSTM是RNN的一种改进模型，拥有独特的记忆和遗忘模式，能够灵活地适应数据的时序特征。更重要的是，LSTM解决了RNN在BPTT训练过程中出现的的梯度消失和梯度爆炸问题，对历史信息的利用程度更高。

RNN与LSTM

首先是RNN与LSTM外结构的对比：
首先是RNN的外结构：
然后是LSTM的外结构：

从两个图片上看，这两个网络结构是比较相似的，lstm相较于rnn就多了个箭头，也就是lstm图中的c1,c2,c3，这个c就是多出来的记忆单元。图中的x1-x4，就好比是小学、初中、高中、大学阶段。每个阶段都会有新的知识灌入，我们都在不断成长，但是我们每个人都有一个记忆线，贯穿了人生的整个阶段，相较于RNN，LSTM外结构多出来的就是这个记忆线，自然能够提高记忆。

LSTM内结构

说完外结构，接下来就是内结构：
LSTM单元结构

内结构对应着LSTM外结构里的LSTM cell，小小的cell盒子里居然有这么多运算！
首先说下运算的方向：运算方向在图中都有箭头标示，黑色或者绿色。

说明下单元结构里的符号：
方框σ：表示sigmoid函数
方框tanh：表示tanh函数
圆形x：表示矩阵乘法，例如Ft 乘Ct-1
圆形+：表示加法，例如Ft 乘Ct-1 + It 乘gt

7个主要公式

学习LSTM肯定会知道它有三个门结构，遗忘门、输入门、输出门。
遗忘门(forget)所以用f表示，输入门(input)所以用i表示，输出门(output)所以用o表示，我们看到单元结构中与这三个门并列的还有一个tanh函数，这个tanh函数表示候选值向量(Candidate)，我们这里用g表示，这里就是三个门加一个候选值状态(candidate state)。还有两个state：单元状态(cell state)用c表示、隐层状态(hidden state)用h表示，这两个状态是比较特殊的，因为他们可以从一个单元流传到下一个单元，就比如今天的作业写一半留到明天写。以及最后的输出y（整个网络的输出），一共是7个主要运算！

数学公式终究要来的！
重要点：前面说到的三个门加一个候选值状态(candidate state)，也就是四个运算，这里的四个运算是权重的主要来源！！！！！！！（还有一个权重是在softmax输出概率的地方）。

这里的四个运算，形式都是：函数(权重1乘ht-1+权重2乘xt)。

在四个运算中，任意一个运算的权重1、权重2是不同的，这里就有8组权重，但是这里如果使用矩阵拼接的话就是4组权重了，所有LSTM单元的对应权重（！！！！！！对应运算的权重1、权重2）是共享的，这就是权重共享！！！在计算LSTM总参数的时候要记住这点，参数总数跟隐藏层个数没有关系！
接下来就是7个公式啦！！

建议自己根据LSTM内结构的图好好比划比划！！！把对应的公式放在图中对应的位置处。

总结

其实LSTM也学了挺久的，但是之前一直没有理清楚，hhhhhh。可能有些不对的地方，期待大佬的指点！。反向传播没有讲，因为链式传播太难写啦！

Occupy微宇星

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【LSTM理解】对长短期记忆网络的理解与梳理

最近在学习RNN和LSTM，在一大波博客的学习阅览后，自己对lstm也有些理解。LSTM网络是循环神经网络（RNN）中的一种特殊模型，同样具备循环神经网络的递归属性。同时，LSTM是RNN的一种改进模型，拥有独特的记忆和遗忘模式，能够灵活地适应数据的时序特征。更重要的是，LSTM解决了RNN在BPTT训练过程中出现的的梯度消失和梯度爆炸问题，对历史信息的利用程度更高。RNN与LSTM首先是RNN与LSTM外结构的对比：首先是RNN的外结构：然后是LSTM的外结构：从两个图片上看，这两个网络结构
复制链接

扫一扫