【LSTM理解】对长短期记忆网络的理解与梳理

本文详细介绍了LSTM(长短期记忆网络)与RNN的区别,强调了LSTM在外结构上增加的记忆单元,并解析了LSTM的内部运算机制,包括遗忘门、输入门、输出门和候选值状态。通过权重共享的机制,LSTM解决了RNN的梯度消失问题,提高了对序列数据的处理能力。虽然没有涉及反向传播的细节,但整体上帮助读者理解了LSTM的核心概念。
摘要由CSDN通过智能技术生成

最近在学习RNN和LSTM,在一大波博客的学习阅览后,自己对lstm也有些理解。

LSTM网络是循环神经网络(RNN)中的一种特殊模型,同样具备循环神经网络的递归属性。同时,LSTM是RNN的一种改进模型,拥有独特的记忆和遗忘模式,能够灵活地适应数据的时序特征。更重要的是,LSTM解决了RNN在BPTT训练过程中出现的的梯度消失和梯度爆炸问题,对历史信息的利用程度更高。

RNN与LSTM

首先是RNN与LSTM外结构的对比:
首先是RNN的外结构:
RNN的外结构然后是LSTM的外结构:
LSTM外结构
从两个图片上看,这两个网络结构是比较相似的,lstm相较于rnn就多了个箭头,也就是lstm图中的c1,c2,c3,这个c就是多出来的记忆单元。图中的x1-x4,就好比是小学、初中、高中、大学阶段。每个阶段都会有新的知识灌入,我们都在不断成长,但是我们每个人都有一个记忆线,贯穿了人生的整个阶段,相较于RNN,LSTM外结构多出来的就是这个记忆线,自然能够提高记忆。

LSTM内结构

说完外结构,接下来就是内结构:
LSTM单元结构

内结构对应着LSTM外结构里的LSTM cell,小小的cell盒子里居然有这么多运算!
首先说下运算的方向:运算方向在图中都有箭头标示,黑色或者绿色。

说明下单元结构里的符号:
方框σ:表示sigmoid函数
方框tanh:表示tanh函数
圆形x:表示矩阵乘法,例如Ft 乘Ct-1
圆形+:表示加法,例如Ft 乘Ct-1 + It 乘gt

7个主要公式

学习LSTM肯定会知道它有三个门结构,遗忘门、输入门、输出门。
遗忘门(forget)所以用f表示,输入门(input)所以用i表示,输出门(output)所以用o表示,我们看到单元结构中与这三个门并列的还有一个tanh函数,这个tanh函数表示候选值向量(Candidate),我们这里用g表示,这里就是三个门加一个候选值状态(candidate state)。还有两个state:单元状态(cell state)用c表示、隐层状态(hidden state)用h表示,这两个状态是比较特殊的,因为他们可以从一个单元流传到下一个单元,就比如今天的作业写一半留到明天写。以及最后的输出y(整个网络的输出),一共是7个主要运算!

数学公式终究要来的!
重要点:前面说到的三个门加一个候选值状态(candidate state),也就是四个运算,这里的四个运算是权重的主要来源!!!!!!!(还有一个权重是在softmax输出概率的地方)。

这里的四个运算,形式都是:函数(权重1乘ht-1+权重2乘xt)。

在四个运算中,任意一个运算的权重1、权重2是不同的,这里就有8组权重,但是这里如果使用矩阵拼接的话就是4组权重了,所有LSTM单元的对应权重(!!!!!!对应运算的权重1、权重2)是共享的,这就是权重共享!!!在计算LSTM总参数的时候要记住这点,参数总数跟隐藏层个数没有关系!
接下来就是7个公式啦!!
7个公式
建议自己根据LSTM内结构的图好好比划比划!!!把对应的公式放在图中对应的位置处。

总结

其实LSTM也学了挺久的,但是之前一直没有理清楚,hhhhhh。可能有些不对的地方,期待大佬的指点!。反向传播没有讲,因为链式传播太难写啦!

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值