LSTM原理

最新推荐文章于 2024-03-21 12:23:02 发布

Hailey的算法学习笔记

最新推荐文章于 2024-03-21 12:23:02 发布

阅读量1.2k

点赞数

分类专栏：算法学习文章标签： lstm 深度学习神经网络

本文链接：https://blog.csdn.net/weixin_41168869/article/details/131305759

版权

算法学习专栏收录该内容

28 篇文章 0 订阅

订阅专栏

LSTM是一种递归神经网络（RNN），用于处理序列数据。它具有比标准RNN更好的长期依赖性能力，这是通过使用称为“门控”机制的方法来实现的。

LSTM由四个主要部分组成：遗忘门（forget gate）、输入门（input gate）、单元状态（cell state）和输出门（output gate）。

在时间步 $t$ 处，假设输入为 $x_t$ ，前一时刻的隐藏状态为 $h_{t-1}$ ，单元状态为 $c_{t-1}$ ， LSTM的计算如下：

首先，计算遗忘门 $f_t$ ，控制前一时刻单元状态的遗忘程度：

$f_t = \sigma(W_f x_t + U_f h_{t-1} + b_f)$

其中， $W_f$ 是输入 $x_t$ 的权重矩阵， $U_f$ 是前一时刻隐藏状态 $h_{t-1}$ 的权重矩阵， $b_f$ 是偏置向量， $\sigma$ 是sigmoid函数。

然后，计算输入门 $i_t$ ，控制新信息的输入程度：

$i_t = \sigma(W_i x_t + U_i h_{t-1} + b_i)$

其中， $W_i$ 是输入 $x_t$ 的权重矩阵， $U_i$ 是前一时刻隐藏状态 $h_{t-1}$ 的权重矩阵， $b_i$ 是偏置向量， $\sigma$ 是sigmoid函数。

接下来，计算新单元状态 $\tilde{c_t}$ ，用于更新当前单元状态：

$\tilde{c_t} = \tanh(W_c x_t + U_c h_{t-1} + b_c)$

其中， $W_c$ 是输入 $x_t$ 的权重矩阵， $U_c$ 是前一时刻隐藏状态 $h_{t-1}$ 的权重矩阵， $b_c$ 是偏置向量， $\tanh$ 是双曲正切函数。

最后，计算当前时刻的单元状态 $c_t$ ，并更新隐藏状态 $h_t$ ：

$c_t = f_t \odot c_{t-1} + i_t \odot \tilde{c_t}$

$h_t = o_t \odot \tanh(c_t)$

其中， $\odot$ 表示逐元素乘积， $o_t$ 是输出门，用于控制输出程度：

$o_t = \sigma(W_o x_t + U_o h_{t-1} + b_o)$

其中， $W_o$ 是输入 $x_t$ 的权重矩阵， $U_o$ 是前一时刻隐藏状态 $h_{t-1}$ 的权重矩阵， $b_o$ 是偏置向量， $\sigma$ 是sigmoid函数。

LSTM通过门控机制控制信息的输入、输出和遗忘，从而有效地处理序列数据中的长期依赖关系。

在以上LSTM公式中，各变量的维度大小如下：

$x_t$ ：输入序列的维度为 $batch\_size, input\_size)$ ，其中 $batch\_size$ 表示输入的样本数， $input\_size$ 表示输入的每个特征的维度大小。
$h_{t-1}$ ：隐藏状态的维度为 $batch\_size, hidden\_size)$ ，其中 $hidden\_size$ 表示隐藏状态的维度大小。
$c_{t-1}$ ：单元状态的维度为 $batch\_size, hidden\_size)$ ，与隐藏状态的维度相同。
$W_f$ ：输入到遗忘门的权重矩阵的维度为 $hidden\_size, input\_size)$ 。
$U_f$ ：隐藏状态到遗忘门的权重矩阵的维度为 $hidden\_size, hidden\_size)$ 。
$b_f$ ：遗忘门的偏置向量的维度为 $hidden\_size,)$ 。
$f_t$ ：遗忘门的输出的维度为 $batch\_size, hidden\_size)$ ，与隐藏状态的维度相同。
$W_i$ ：输入到输入门的权重矩阵的维度为 $hidden\_size, input\_size)$ 。
$U_i$ ：隐藏状态到输入门的权重矩阵的维度为 $hidden\_size, hidden\_size)$ 。
$b_i$ ：输入门的偏置向量的维度为 $hidden\_size,)$ 。
$i_t$ ：输入门的输出的维度为 $batch\_size, hidden\_size)$ ，与隐藏状态的维度相同。
$\tilde{c_t}$ ：新单元状态的维度为 $batch\_size, hidden\_size)$ ，与隐藏状态的维度相同。
$W_c$ ：输入到新单元状态的权重矩阵的维度为 $hidden\_size, input\_size)$ 。
$U_c$ ：隐藏状态到新单元状态的权重矩阵的维度为 $hidden\_size, hidden\_size)$ 。
$b_c$ ：新单元状态的偏置向量的维度为 $hidden\_size,)$ 。
$c_t$ ：当前单元状态的维度为 $batch\_size, hidden\_size)$ ，与隐藏状态的维度相同。
$o_t$ ：输出门的输出的维度为 $batch\_size, hidden\_size)$ ，与隐藏状态的维度相同。
$W_o$ ：输入到输出门的权重矩阵的维度为 $hidden\_size, input\_size)$ 。
$U_o$ ：隐藏状态到输出门的权重矩阵的维度为 $hidden\_size, hidden\_size)$ 。
$b_o$ ：输出门的偏置向量的维度为 $hidden\_size,)$ 。
$h_t$ ：当前隐藏状态的维度为 $batch\_size, hidden\_size)$ ，与单元状态的维度相同。

Hailey的算法学习笔记

关注

0
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
0
评论
LSTM原理

LSTM由四个主要部分组成：遗忘门（forget gate）、输入门（input gate）、单元状态（cell state）和输出门（output gate）。LSTM是一种递归神经网络（RNN），用于处理序列数据。它具有比标准RNN更好的长期依赖性能力，这是通过使用称为“门控”机制的方法来实现的。LSTM通过门控机制控制信息的输入、输出和遗忘，从而有效地处理序列数据中的长期依赖关系。最后，计算当前时刻的单元状态。，前一时刻的隐藏状态为。是sigmoid函数。接下来，计算新单元状态。
复制链接

扫一扫