LSTM公式及理解

最新推荐文章于 2024-07-29 00:34:26 发布

Geek_of_csdn

最新推荐文章于 2024-07-29 00:34:26 发布

阅读量4.1w

点赞数 43

分类专栏：机器学习文章标签： LSTM

本文链接：https://blog.csdn.net/Geek_of_CSDN/article/details/86559464

版权

本文详细介绍了LSTM（长短期记忆网络）的结构与工作原理，包括其基本组件如输入门、遗忘门、输出门以及Peephole机制。通过公式解析，阐述了LSTM如何处理长期依赖问题，以及短时记忆和长时记忆在LSTM中的作用。文章还提及了RNN的历史和目的，以及LSTM相对于传统神经网络的改进之处。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LSTM的基本结构及推导

这部分内容基本都是来自Step-by-step to LSTM: 解析LSTM神经网络设计原理，只是摘录了部分内容并添加了一些贫僧的想法。

LSTM公式与结构

LSTM（Long Short Term Memory，长短期记忆，注意这里的“长短期”，后面会提到是什么意思）的作者是个有点奇怪的人¹，他的名字是Jürgen Schmidhuber（发音也挺奇怪）。LSTM的作者很有意思，如果读者感兴趣的话可以自己去看看相关资料（一定要去看作者本人的个人网站）。

接下来我们直接看LSTM，放一张网络上极为常见的图：

在这里插入图片描述

图片来自Understanding LSTM Networks，（丑的要死的）红色字体是贫僧加的。

注意图中hidden state（短期记忆）和cell state（长期记忆）的传递，以及输出其实就是 $h_t$ 。

然后就是LSTM的计算公式：
输入门：
$i_t = \sigma (W_i \cdot [h_{t-1}, x_t] + b_i)$
遗忘门：
$f_t = \sigma (W_f \cdot [h_{t-1}, x_t] + b_f)$
$\tilde{C_t} = \tanh{(W_C \cdot [h_{t-1}, x_t] + b_C)}$
输出门：
$o_t = \sigma (W_o [h_{t-1}, x_t] + b_o)$
两种记忆：
长记忆： $C_t = f_t * C_{t-1} + i_t * \tilde{C_t}$
短记忆： $h_t = o_t * \tanh(C_t)$

最低0.47元/天解锁文章