长短期记忆网络（LSTM）

木子算法

已于 2025-02-25 13:50:17 修改

阅读量1.3k

点赞数 37

分类专栏：数学建模人工智能文章标签：人工智能数学建模机器学习

于 2025-02-25 13:49:24 首次发布

本文链接：https://blog.csdn.net/m0_69689054/article/details/145850965

版权

数学建模同时被 2 个专栏收录

31 篇文章

订阅专栏

人工智能

31 篇文章

订阅专栏

长短期记忆网络（LSTM）：从原理到实战的全面解析

一、引言

在人工智能和机器学习领域，序列数据处理一直是一个具有挑战性的问题。传统的神经网络在处理序列数据时，面临着难以捕捉长距离依赖关系的困境。长短期记忆网络（Long Short - Term Memory, LSTM）作为一种特殊的循环神经网络（RNN），通过引入门控机制，有效地解决了这一问题，在自然语言处理、时间序列预测等众多领域取得了显著的成果。本文将深入探讨LSTM的原理、结构，并通过MATLAB给出具体的实战示例。同时，为了更好地理解LSTM的工作流程，我们还会加入相应的流程图。

二、LSTM的基本原理

（一）传统RNN的局限性

传统的循环神经网络（RNN）能够处理序列数据，通过隐藏状态在时间步之间传递信息。其更新公式如下：
$h_t = \tanh(W_{hh}h_{t - 1}+W_{xh}x_t + b_h)$
$y_t = W_{hy}h_t + b_y$
其中， $x_t$ 是当前时间步的输入， $h_t$ 是当前时间步的隐藏状态， $y_t$ 是当前时间步的输出， $W_{hh}$ 、 $W_{xh}$ 、 $W_{hy}$ 是权重矩阵， $b_h$ 、 $b_y$ 是偏置项。

然而，RNN在处理长序列时，会出现梯度消失或梯度爆炸的问题，导致网络难以学习到长距离的依赖关系。

（二）LSTM的门控机制

LSTM通过引入三个门控单元：输入门（Input Gate）、遗忘门（Forget Gate）和输出门（Output Gate），有效地解决了梯度消失和梯度爆炸的问题，能够更好地捕捉长距离依赖关系。

1. 遗忘门

遗忘门决定了上一时刻的细胞状态 $C_{t - 1}$ 中有多少信息需要被遗忘。其计算公式为：
$f_t=\sigma(W_f[h_{t - 1},x_t]+b_f)$
其中， $\sigma$ 是sigmoid函数， $W_f$ 是遗忘门的权重矩阵， $b_f$ 是遗忘门的偏置项。 $f_t$ 是一个取值在 $[0, 1]$ 之间的向量， $0$ 表示完全遗忘， $1$ 表示完全保留。

2. 输入门

输入门决定了当前输入 $x_t$ 中有多少信息需要被加入到细胞状态中。其计算公式为：
$i_t=\sigma(W_i[h_{t - 1},x_t]+b_i)$
$\tilde{C}_t=\tanh(W_C[h_{t - 1},x_t]+b_C)$
其中， $i_t$ 是输入门的输出， $\tilde{C}_t$ 是候选细胞状态。

3. 细胞状态更新

根据遗忘门和输入门的输出，更新细胞状态：
$C_t = f_t\odot C_{t - 1}+i_t\odot\tilde{C}_t$
其中， $\odot$ 表示逐元素相乘。

4. 输出门

输出门决定了当前细胞状态 $C_t$ 中有多少信息需要被输出到隐藏状态 $h_t$ 中。其计算公式为：
$o_t=\sigma(W_o[h_{t - 1},x_t]+b_o)$
$h_t = o_t\odot\tanh(C_t)$

（三）LSTM的结构

LSTM的整体结构可以看作是一个带有门控机制的单元，在每个时间步接收输入 $x_t$ 和上一时刻的隐藏状态 $h_{t - 1}$ ，输出当前时刻的隐藏状态 $h_t$ 和细胞状态 $C_t$ 。通过在时间维度上展开，LSTM可以处理任意长度的序列数据。

LSTM工作流程流程图

在这里插入图片描述

三、LSTM的MATLAB实战

（一）数据准备

以时间序列预测为例，我们使用一个简单的正弦波数据作为示例。

% 生成正弦波数据
time_steps = linspace(0, 20, 200);
data = sin(time_steps);
data = data';

% 划分训练集和测试集
train_size = floor(length(data) * 0.8);
train_data = data(1:train_size);
test_data = data(train_size + 1:end);

% 定义数据生成函数
seq_length = 10;
function [X, Y] = create_sequences(data, seq_length)
    num_sequences = length(data) - seq_length;
    X = zeros(num_sequences, seq_length);
    Y = zeros(num_sequences, 1);
    for i = 1:num_sequences
        X(i, :) = data(i:i + seq_length - 1);
        Y(i) = data(i + seq_length);
    end
end

[X_train, y_train] = create_sequences(train_data, seq_length);
[X_test, y_test] = create_sequences(test_data, seq_length);

% 转换为适合LSTM输入的格式
X_train = permute(reshape(X_train', 1, seq_length, []), [3, 2, 1]);
X_test = permute(reshape(X_test', 1, seq_length, []), [3, 2, 1]);

（二）定义LSTM模型

% 定义LSTM层数和隐藏单元数
numHiddenUnits = 32;
numLayers = 2;

layers = [
    sequenceInputLayer(1)
    lstmLayer(numHiddenUnits, 'NumLayers', numLayers)
    fullyConnectedLayer(1)
    regressionLayer];

options = trainingOptions('adam', ...
    'MaxEpochs', 100, ...
    'MiniBatchSize', 32, ...
    'SequenceLength', 'longest', ...
    'Shuffle', 'every-epoch', ...
    'Verbose', false, ...
    'Plots', 'training-progress');

net = trainNetwork(X_train, y_train, layers, options);

（三）模型评估

% 进行预测
y_pred = predict(net, X_test);

% 计算均方误差
mse = mean((y_test - y_pred).^2);
fprintf('测试集均方误差: %.4f\n', mse);

% 绘制预测结果
figure;
plot(time_steps(train_size + seq_length + 1:end), test_data(seq_length + 1:end), 'b', 'DisplayName', '真实值');
hold on;
plot(time_steps(train_size + seq_length + 1:end), y_pred, 'r--', 'DisplayName', '预测值');
xlabel('时间');
ylabel('值');
legend;