LSTM长短期记忆模型

最新推荐文章于 2022-10-01 16:04:46 发布

qq_51741751

最新推荐文章于 2022-10-01 16:04:46 发布

阅读量1.1k

点赞数

分类专栏：深度学习文章标签： lstm rnn 神经网络

本文链接：https://blog.csdn.net/qq_51741751/article/details/122889595

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一什么是 LSTM？

长短期记忆网络——通常被称为 LSTM，是一种特殊的 RNN，能够学习长期依赖性。由 Hochreiter 和 Schmidhuber（1997）提出的，并且在接下来的工作中被许多人改进和推广。LSTM 在各种各样的问题上表现非常出色，现在被广泛使用。

LSTM 被明确设计用来避免长期依赖性问题。长时间记住信息实际上是 LSTM 的默认行为，而不是需要努力学习的东西！

所有递归神经网络都具有神经网络的链式重复模块。在标准的 RNN 中，这个重复模块具有非常简单的结构，例如只有单个 tanh 层。
在这里插入图片描述
LSTM 也具有这种类似的链式结构，但重复模块具有不同的结构。不是一个单独的神经网络层，而是四个，并且以非常特殊的方式进行交互。

在这里插入图片描述

二 LSTM的数学推导

LSTM的表现通常比时间递归神经网络及隐马尔科夫模型（HMM）更好。
在此不再赘述LSTM模型的数学推导，感兴趣的可以去https://www.cnblogs.com/changzhiluo/articles/4549679.html，这是本人目前见到的最为完整的数学公式。

三 LSTM在keras库中的调用

LSTM keras库实现参数含义：

keras.layers.recurrent.LSTM(units, activation=‘tanh’, recurrent_activation=‘hard_sigmoid’, use_bias=True, kernel_initializer=‘glorot_uniform’, recurrent_initializer=‘orthogonal’, bias_initializer=‘zeros’, unit_forget_bias=True, kernel_regularizer=None, recurrent_regularizer=None, bias_regularizer=None, activity_regularizer=None, kernel_constraint=None, recurrent_constraint=None, bias_constraint=None, dropout=0.0, recurrent_dropout=0.0)
其中参数含义如下：
核心参数
units：输出维度
input_dim：输入维度，当使用该层为模型首层时，应指定该值（或等价的指定input_shape)
return_sequences：布尔值，默认False，控制返回类型。若为True则返回整个序列，否则仅返回输出序列的最后一个输出
input_length：当输入序列的长度固定时，该参数为输入序列的长度。当需要在该层后连接Flatten层，然后又要连接Dense层时，需要指定该参数，否则全连接的输出无法计算出来。
输入shape
形如（samples，timesteps，input_dim）的3D张量
输出shape
如果return_sequences=True：返回形如（samples，timesteps，output_dim）的3D张量否则，返回形如（samples，output_dim）的2D张量
根据我本人的经验而言，调节LSTM（）进行数据预测时主要调节units，LSTM的层数。

qq_51741751

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
LSTM长短期记忆模型

一什么是 LSTM？长短期记忆网络——通常被称为 LSTM，是一种特殊的 RNN，能够学习长期依赖性。由 Hochreiter 和 Schmidhuber（1997）提出的，并且在接下来的工作中被许多人改进和推广。LSTM 在各种各样的问题上表现非常出色，现在被广泛使用。LSTM 被明确设计用来避免长期依赖性问题。长时间记住信息实际上是 LSTM 的默认行为，而不是需要努力学习的东西！所有递归神经网络都具有神经网络的链式重复模块。在标准的 RNN 中，这个重复模块具有非常简单的结构，例如只有单个 t
复制链接

扫一扫