长短期记忆网络LSTM（Long Short-Term Memory）

最新推荐文章于 2024-07-27 19:53:15 发布

听歌睡觉~

最新推荐文章于 2024-07-27 19:53:15 发布

阅读量822

点赞数 17

分类专栏： Pytorch深度学习文章标签： lstm 人工智能 rnn

本文链接：https://blog.csdn.net/DonG333_/article/details/139303270

版权

Pytorch深度学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

LSTM，即长短期记忆网络，是一种特别设计的人工神经网络，擅长捕捉时间序列数据中的长期依赖关系，比如分析股票走势或天气变化。

传统神经网络在处理这类数据时，往往难以记住久远的事件，就像记性差的观众，只记得最近的剧情，而LSTM则像记忆力超群的观众，能够记住关键信息，并在关键时刻使用这些信息。

LSTM之所以能做到这一点，是因为它内部有三扇“门”来控制信息的流动：

遗忘门（Forget Gate）：决定哪些信息可以丢弃，比如不重要的剧情细节。
输入门（Input Gate）：决定哪些新信息值得记住，比如新出现的关键线索。
输出门（Ouput Gate）：决定最终输出哪些信息，比如根据已知情节做出预测。

借助这三个门的调节，LSTM 能够有选择地在时间序列数据中保留或忽略信息，这样它就可以在关键时刻做出精确的预测或进行分类。

举个例子，就像学习语言，你开始时会记住新词汇和语法规则（输入门），随着时间的推移，一些不常用的词汇可能会被遗忘（遗忘门），而在实际交流中，你会根据情境选择性地使用你记住的语言知识（输出门）。

简而言之，LSTM就像一个智能的学习者，能够灵活地记忆和应用重要信息。

理论基础

数学原理和公示推导

LSTM的核心是通过引入不同的“门”机制来控制信息的流动。这些“门”包括遗忘门、输入门和输出门。

遗忘门

遗忘门决定了哪些信息需要丢弃。它的输出是一个介于0和1之间的向量，表示每个单元状态应该保留多少信息。

输入门

输入门决定了哪些新的信息需要存储到单元状态中。

接着，会生成候选单元状态，它表示可以加入到单元状态中的新信息。

更新单元状态

通过遗忘门和输入门来更新单元状态。

输出门

输出门决定当前单元状态的哪部分需要输出，并且通过一个激活函数（通常是tanh）处理后的结果作为输出。

说明:

计算步骤处理过程

1>数据预处理

取当前时刻的输入 $^{}$ $X_{t}$ 和前一时刻的隐状态 $h_{t-1}$ 。

2>计算遗忘门（确定哪些信息需要遗忘）

使用 $h_{t-1}$ 和 $X_{t}$ 计算遗忘门 $f_{t}$ 。

3>计算输入门（确定哪些新信息要保留）

使用 $h_{t-1}$ 和 $X_{t}$ 计算输入门 $i_{t}$ 。

4>计算候选单元状态（计算新的潜在状态）

计算新的候选单元状态

5>更新单元状态

根据遗忘门和输入门的结果更新单元状态 $C_{t}$

6>计算输出门（决定哪些信息要输出）

使用 $h_{t-1}$ 和 $X_{t}$ 计算输出门 $o_{t}$

7>计算当前时刻隐状态

通过输出门的结果和更新后的单元状态计算当前时刻的隐状态 $h_{t}$

利用遗忘门、输入门和输出门的控制，LSTM能够智能地保留关键信息并忽略无关紧要的细节，这使得它在处理具有长期依赖性的时间序列数据时表现卓越。尽管每个时间点的计算较为繁琐，但正是这些计算步骤使得LSTM能够在维持长期记忆的同时，有效地处理即时输入，实现两者间的平衡。

最简单的LSTM文本模型

import torch




Q_words = ['what', 'is', 'the', 'capital', 'of', 'France', 'China', 'America']
A_words = ['Paris', 'Beijing', 'New York', 'London', 'Tokyo']

# question = 'what is the capital of China'
# answer = 'Beijing'
question_onehot = \
    [1, 1, 1, 1, 1, 0, 1, 0]
answer_onehot = \
    [0, 1, 0, 0, 0]
question_tensor = torch.tensor(question_onehot, dtype=torch.float32).view(1, 8)
answer_tensor = torch.tensor(answer_onehot, dtype=torch.float32).view(1, 5)

class text_lstm(torch.nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(text_lstm, self).__init__()
        self.lstm = torch.nn.LSTM(input_size=input_size, hidden_size=hidden_size, num_layers=1, batch_first=False)
        self.fc = torch.nn.Linear(in_features=hidden_size, out_features=output_size)

    def forward(self, x):
        x, _ = self.lstm(x)
        x = self.fc(x)
        return x

model = text_lstm(8, 2, 5)
criterion = torch.nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

for epoch in range(1000):
    optimizer.zero_grad()
    output = model(question_tensor)
    loss = criterion(output, answer_tensor)
    loss.backward()
    optimizer.step()
    if epoch % 10 == 0:
        print(f'epoch {epoch}, loss {loss.item()}')
        print(f'prediction: {A_words[output.argmax(dim=1).item()]}', end=' ')

LSTM的优点：

解决梯度消失问题：LSTM通过门控机制有效地解决了传统RNN在处理长序列数据时遇到的梯度消失问题。

捕捉长期依赖：LSTM能够捕捉序列数据中的长期依赖关系，这使得它在语音识别、自然语言处理等领域表现出色。

灵活性和泛化能力：LSTM网络结构允许信息在网络中流动，这提供了高度的灵活性和泛化能力，使得LSTM能够处理各种复杂的序列任务。

双向LSTM（BI-LSTM）：通过双向LSTM，可以同时处理过去和未来的信息，这在某些任务中可以提供额外的性能提升。

LSTM的缺点：

计算复杂度高：LSTM的门控机制增加了模型的计算复杂度，导致训练和推理时间较长。

难以解释：LSTM的内部工作机制相对复杂，这使得模型的解释性不如某些其他类型的神经网络。

对超参数敏感：LSTM的性能可能对超参数的选择非常敏感，需要仔细调整以获得最佳性能。

需要大量数据：为了训练一个有效的LSTM模型，通常需要大量的训练数据，这在某些应用场景中可能是一个限制因素。

过拟合风险：在某些情况下，LSTM可能会过拟合到训练数据，尤其是在数据量不足或模型过于复杂时。

与相似算法的对比

LSTM vs. 简单RNN
优点：LSTM能更好地处理长时间依赖关系，解决了简单RNN中的梯度消失问题。

缺点：LSTM结构比简单RNN复杂，训练时间更长。

LSTM vs. GRU（门控循环单元）
优点：LSTM通过三个门（遗忘门、输入门、输出门）控制信息流动，理论上可以捕捉更复杂的依赖关系。

缺点：GRU只有两个门（更新门和重置门），结构较简单，计算量小于LSTM，但在很多实际应用中，GRU性能接近甚至优于LSTM。

LSTM vs. 一维卷积神经网络（1D-CNN）
优点：LSTM适用于序列数据，能捕捉时间上的依赖关系。

缺点：1D-CNN通过卷积操作捕捉局部时间特征，计算效率高于LSTM。在一些短时间依赖性较强的数据集上，1D-CNN可能表现更好。

选择LSTM（长短期记忆网络）的情境通常涉及以下几个方面：

长序列依赖：当数据集包含长期依赖关系时，LSTM是一个很好的选择。例如，在自然语言处理中，句子中某些词的意义可能依赖于前面很远的上下文。

时间序列预测：LSTM非常适合于时间序列预测问题，如股市价格预测、气象预报等，因为它能够捕捉时间点之间的长期相关性。

语音识别：LSTM在处理音频数据时表现出色，能够处理语音信号中的长时依赖，适用于语音识别和语音合成。

文本生成：LSTM能够生成连贯的文本序列，适用于机器翻译、文本摘要、聊天机器人等文本生成任务。

异常检测：在需要从时间序列数据中检测异常或模式变化的应用中，LSTM可以学习正常模式并识别偏离这些模式的异常。

生物信息学：在生物信息学领域，LSTM可以用于基因序列分析，识别DNA、RNA或蛋白质序列中的模式。

视频处理：在视频分析中，LSTM可以用来处理视频帧序列，进行动作识别或预测。

多步时间序列预测：当需要进行多步预测时，LSTM可以利用其内部状态来记住过去的信息并进行未来预测。

数据具有非线性特征：如果数据集具有复杂的非线性特征，LSTM作为一种非线性模型，可以更好地拟合这类数据。

需要模型泛化能力：在需要模型具有良好泛化能力的应用中，LSTM可以通过学习长期依赖关系来提高模型的泛化性能。

数据集大小适中：LSTM通常需要足够的数据来训练其参数，因此在数据量适中且包含有用信息时，LSTM是一个不错的选择。

计算资源充足：由于LSTM的计算复杂性较高，选择LSTM还需要考虑计算资源的可用性。如果有足够的计算资源，LSTM可以提供更好的性能。

在选择LSTM时，还需要考虑到其训练时间可能较长，且对超参数敏感，因此在实际应用中需要仔细调整和优化。此外，随着深度学习技术的发展，还可能出现新的模型或方法，它们可能在特定任务上比LSTM更有效，因此在选择LSTM之前，也需要考虑这些新兴技术。