LSTM基础

最新推荐文章于 2023-08-18 21:53:28 发布

skywuuuu

最新推荐文章于 2023-08-18 21:53:28 发布

阅读量142

点赞数

分类专栏：时间序列实习生涯循环神经网络文章标签：深度学习 rnn lstm

本文链接：https://blog.csdn.net/skywuuu/article/details/114122348

版权

实习生涯同时被 3 个专栏收录

15 篇文章 0 订阅

订阅专栏

时间序列

2 篇文章 0 订阅

订阅专栏

循环神经网络

2 篇文章 0 订阅

订阅专栏

由来

Vanilla RNN无法记忆之前的信息，比如：“我来自中国……我能流利地说中文 ”，“中文”二字来自很长的语句之前，所以这个填空就很不好填。LSTM可以较好的解决这个问题。

结构

LSTM的总体结构图
$\sigma$ 代表sigmoid函数，黄色的框框代表可被训练的layer，红色的圈圈代表直接的运算

核心

Gates
门的理念：让被允许通过的信息通过，阻止不被允许通过的信息通过。sigmoid的值域为[0,1]，再加上乘法，就可以决定让百分之多少的信息通过。从极值来看，sigmoid的output为0代表所有信息都无法通过，1代表所有信息都可以通过

forget gate layer

forget gate layer
收集从 $h_{t-1}$ 和 $x_t$ 来的信息，然后决定要完全保留之前获取的信息 $C_{t-1}$ 的内容（sigmoid输出为1）还是完全去除（sigmoid输出为0）

Input gate layer

Input gate layer
sigmoid作用同上，tanh的范围是[-1,1]正好可以用来确定是[negative, positive]，也就是从完全的负相关（-1）到无关（0），再到完全正相关（1）

更新 $C_t$

更新C_t
$\times$ 代表保留来路方向百分之几的信息，从左往右的第一个 $\times$ 表示保留多少之前所有状态总和 $C_{t-1}$ 的信息，第二个 $\times$ 表示保留多少从 $h_{t-1}$ 和 $x_t$ 来的经过tanh处理后得到的 $\widetilde{C_t}$ 信息，加号（ $+$ ）表示将之前所有状态来的信息和当前信息两者结合得到最终的输出 $C_t$