图解LSTM

最新推荐文章于 2024-08-06 01:32:32 发布

置顶 PIPIXIU

最新推荐文章于 2024-08-06 01:32:32 发布

阅读量4.6k

点赞数 1

分类专栏：机器学习文章标签： LSTM deeplearning rnn

本文链接：https://blog.csdn.net/pipixiu/article/details/81014168

版权

机器学习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

1 LSTM概述
2 lstm 公式
3 LSTM cell分析
4 致谢
- 4.1 图
- 4.2 参考

1 LSTM概述

RNN给神经网络加入了处理时间的能力，而传统的RNN会面临梯度消失（爆炸）的问题RNN vs LSTM: Vanishing Gradients，传递的时间信息也会越来越弱。给RNN引入长时记忆至关重要。因此有了Long Short Term Memory(LSTM)。

常见的LSTM结构如下图所示：

$x_t$ 为每个时间步的输入数据， $h_t$ 为每个时间步的输出，中间的 $c_t$ 为单元间的长时记忆。
注意！该图容易产生误解！！此图是将LSTM按照时间维度进行了展开，实际上同一个时刻只有一个LSTM单元。
即如下图所示：
这里写图片描述

这里写图片描述

2 lstm 公式

每个LSTM单元用三个门来决定保留的信息，LSTM计算门和信息有6个公式，我们将公式罗列如下，并在下一章节详细分析这6个公式。

遗忘门（forget gate）
遗忘门 $f_t$ 对上次单元状态 $c_{(t-1)}$ 进行选择，它决定了上一时刻的单元状态 $c_{t-1}$ 有多少保留到当前时刻 $c_t$

$f t = σ (w f \cdot [h (t - 1), x t] + b f) (1)$ $\begin{equation} f_t=σ(w_f⋅[h_{(t−1)},x_t ]+b_f ) \tag{1} \label{eq:遗忘门} \end{equation}$
输入门（input gate）

它决定了当前时刻网络的输入 $x_t$ 有多少保存到单元状态 $c_t$

$i t = σ (w i \cdot [h (t - 1), x t] + b i) (2)$ $\begin{equation} i_t=σ(w_i⋅[h_{(t−1)},x_t ]+b_i ) \tag{2} \label{eq:输入门} \end{equation}$
输出门（output gate）
控制单元状态 $c_t$ 有多少输出到 LSTM 的当前输出值 $h_t$

$o t = σ (w o \cdot [h (t - 1), x t] + b o) (3)$ $\begin{equation} o_t=σ(w_o⋅[h_{(t−1)},x_t ]+b_o ) \tag{3} \label{eq:输出门} \end{equation}$
输入信息 $(C_t) ̃$

$(C t) ̃ = t a n h (w c \cdot [h (t - 1), x t] + b c) (4)$ $\begin{equation} (C_t) ̃=tanh(w_c⋅[h_{(t−1)},x_t ]+b_c ) \tag{4} \label{eq:输入信息} \end{equation}$
本次单元状态 $c_t$
本次单元状态由历史记忆和本次输入共同决定。

$c t = f t \cdot c (t - 1) + i t \cdot (C t) ̃ (5)$ $\begin{equation} c_t=f_t⋅c_{(t−1)}+ i_t⋅(C_t) ̃ \tag{5} \label{eq:单元状态} \end{equation}$
最终输出 $ht$

$h t = o t \cdot t a n h (C t) (6)$ $\begin{equation} h_t=o_t⋅tanh⁡(C_t ) \tag{6} \label{eq:输出} \end{equation}$
其中:
$x_t$ 为本时刻的数据
$c_{t-1}$ 为上个时刻单元的状态，保留着历史的记忆
$C_t ̃$ 为本时刻的输入信息，代表着当前数据的信息
$c_t$ 为本时刻单元的状态
$h_t$ 为本时刻单元的输出
每个时刻处理时将 $x_t$ 与 $h_{t-1}$ 两个矩阵直接拼接在一起 $[h_{t-1},x_t]$ 作为输入，加上适当的权重 $w$ 和偏置 $b$