第R2周：LSTM-火灾温度预测：一文搞懂LSTM（长短期记忆网络）

最新推荐文章于 2024-08-07 22:47:20 发布

lihuhelihu

最新推荐文章于 2024-08-07 22:47:20 发布

阅读量366

点赞数 15

分类专栏： RNN简单实战文章标签： lstm rnn 人工智能神经网络深度学习机器学习数据分析

本文链接：https://blog.csdn.net/lihuhelihu/article/details/140996360

版权

RNN简单实战专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一文搞懂LSTM（长短期记忆网络）

一句话介绍LSTM，它是RNN的进阶版，如果说RNN的最大限度是理解一句话，那么LSTM的最大限度则是理解一段话，详细介绍如下：
LSTM，全称为长短期记忆网络(Long Short Term Memory networks)，是一种特殊的RNN，能够学习到长期依赖关系。LSTM由Hochreiter & Schmidhuber (1997)提出，许多研究者进行了一系列的工作对其改进并使之发扬光大。LSTM在许多问题上效果非常好，现在被广泛使用。
本文将从LSTM的本质、LSTM的原理两个方面，带你一文搞懂LSTM。
在这里插入图片描述

一、LSTM的本质

RNN 面临问题：RNN（递归神经网络）在处理长序列时面临的主要问题：短时记忆和梯度消失/梯度爆炸。

梯度更新规则：
在这里插入图片描述

RNN面临的问题1
1）短时记忆
●问题描述：RNN在处理长序列时，由于信息的传递是通过隐藏状态进行的，随着时间的推移，较早时间步的信息可能会在传递到后面的时间步时逐渐消失或被覆盖。
●影响：这导致RNN难以捕捉和利用序列中的长期依赖关系，从而限制了其在处理复杂任务时的性能。
2）梯度消失/梯度爆炸
●问题描述：在RNN的反向传播过程中，梯度会随着时间步的推移而逐渐消失（变得非常小）或爆炸（变得非常大）。
●影响：梯度消失使得RNN在训练时难以学习到长期依赖关系，因为较早时间步的梯度信息在反向传播到初始层时几乎为零。梯度爆炸则可能导致训练过程不稳定，权重更新过大，甚至导致数值溢出。
LSTM的提出
LSTM是一种循环神经网络（RNN）的变体，它解决了传统RNN在处理长序列数据时的问题，特别是在面对长时间滞后关系时容易出现的梯度消失或梯度爆炸问题。
具体来说，LSTM通过引入称为“门”的结构，包括输入门、遗忘门和输出门，以及细胞状态（cell state），解决了以下问题：

长期依赖问题：在传统的RNN中，当序列非常长时，网络往往会遇到梯度消失或梯度爆炸的问题，导致难以捕捉到序列中长距离的依赖关系。LSTM通过细胞状态来传递信息，避免了梯度消失或爆炸，从而更好地捕捉长期依赖关系。

遗忘和记忆： LSTM的门控结构允许网络选择性地忘记或记住某些信息，这使得网络可以更好地处理序列中的噪声或不重要的信息，同时保留重要的长期依赖关系。

梯度传播： LSTM通过门控结构，使得梯度可以在时间上更好地传播，从而使得网络的训练更加稳定和高效。

因此，LSTM通过引入门控结构和细胞状态，有效地解决了传统RNN在处理长序列数据时遇到的梯度消失、长期依赖等问题，使得其在语言建模、时间序列预测、机器翻译等任务中取得了显著的进展。

二、LSTM的原理

RNN 工作原理
第一个词被转换成了机器可读的向量，然后 RNN 逐个处理向量序列。

逐一处理矢量序列:
在这里插入图片描述
1）隐藏状态的传递

●过程描述：在处理序列数据时，RNN将前一时间步的隐藏状态传递给下一个时间步。
●作用：隐藏状态充当了神经网络的“记忆”，它包含了网络之前所见过的数据的相关信息。
●重要性：这种传递机制使得RNN能够捕捉序列中的时序依赖关系。

将隐藏状态传递给下一个时间步: 在这里插入图片描述

2）隐藏状态的计算

●细胞结构：RNN的一个细胞接收当前时间步的输入和前一时间步的隐藏状态。
●组合方式：当前输入和先前隐藏状态被组合成一个向量，这个向量融合了当前和先前的信息。
●激活函数：组合后的向量经过一个tanh激活函数的处理，输出新的隐藏状态。这个新的隐藏状态既包含了当前输入的信息，也包含了之前所有输入的历史信息。合后的向量经过一个tanh激活函数的处理，输出新的隐藏状态。这个新的隐藏状态既包含了当前输入的信息，也包含了之前所有输入的历史信息。

tanh激活函数（区间-1～1）:
在这里插入图片描述

●输出：新的隐藏状态被输出，并被传递给下一个时间步，继续参与序列的处理过程。

RNN的细胞结构和运算:
在这里插入图片描述

LSTM工作原理：
原始RNN的隐藏层只有一个状态，即 h，它对于短期的输入非常敏感。那么如果我们再增加一个门（gate）机制用于控制特征的流通和损失，即 c，让它来保存长期的状态，这就是长短时记忆网络(Long Short Term Memory，LSTM)。

在这里插入图片描述

新增加的状态 c，称为单元状态。我们把LSTM按照时间维度展开：
在这里插入图片描述

在这里插入图片描述

2.1. 遗忘门
在这里插入图片描述

遗忘门（sigmoid激活函数）:
在这里插入图片描述
●作用：决定哪些旧信息应该从记忆单元中遗忘或移除。
●组成：遗忘门仅由一个sigmoid激活函数组成。

sigmoid激活函数（区间0～1）:
在这里插入图片描述

2.2. 输入门
●作用：决定哪些新信息应该被添加到记忆单元中。
●组成：输入门由一个sigmoid激活函数和一个tanh激活函数组成。sigmoid函数决定哪些信息是重要的，而tanh函数则生成新的候选信息。
●运算：输入门的输出与候选信息相乘，得到的结果将在记忆单元更新时被考虑。

输入门（sigmoid激活函数 + tanh激活函数）:
在这里插入图片描述

2.3. 输出门
在这里插入图片描述

输出门（sigmoid激活函数 + tanh激活函数）:
在这里插入图片描述

lihuhelihu

关注

15
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
第R2周：LSTM-火灾温度预测：一文搞懂LSTM（长短期记忆网络）

LSTM在许多问题上效果非常好，现在被广泛使用。长期依赖问题：在传统的RNN中，当序列非常长时，网络往往会遇到梯度消失或梯度爆炸的问题，导致难以捕捉到序列中长距离的依赖关系。因此，LSTM通过引入门控结构和细胞状态，有效地解决了传统RNN在处理长序列数据时遇到的梯度消失、长期依赖等问题，使得其在语言建模、时间序列预测、机器翻译等任务中取得了显著的进展。●问题描述：RNN在处理长序列时，由于信息的传递是通过隐藏状态进行的，随着时间的推移，较早时间步的信息可能会在传递到后面的时间步时逐渐消失或被覆盖。
复制链接

扫一扫

专栏目录