牛津大学等提出P-sLSTM，释放LSTM在长期时间序列预测中的潜力

最新推荐文章于 2025-05-30 08:05:08 发布

数据派THU

最新推荐文章于 2025-05-30 08:05:08 发布

阅读量627

点赞数 1

文章标签： lstm 人工智能 rnn 深度学习神经网络

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247652755&idx=2&sn=2a8886593802fb69bf351aa727adf4b7&chksm=e8b88545176a2c24b1f56528f5cce5decccaa59d6fb0b2eac318c82ad4a26e705978cfc975ea&scene=126&sessionid=0

版权

来源：时序人‍‍
本文约2600字，建议阅读5分钟本文研究者针对长期时间序列预测任务开发了一种基于 LSTM 的方法，即补丁分割长短期记忆网络（P-sLSTM）。

传统的循环神经网络架构，如长短期记忆神经网络（LSTM），在时间序列预测任务中历来扮演着重要角色。尽管最近为自然语言处理引入的 sLSTM 通过引入指数门控和记忆混合机制，对长期序列学习有益，但其潜在的短期记忆问题成为直接在时间序列预测中应用 sLSTM 的障碍。

为了解决这一问题，来自牛津大学、宾夕法尼亚大学等学校企业合作提出了一种简单而高效的算法 P-sLSTM。该算法通过在 sLSTM 中融入补丁技术和通道独立性进行构建。这些改进显著提升了 sLSTM 在时间序列预测中的性能，取得了最先进的结果。目前，该工作已被 AAAI 2025 接收。

【论文标题】

Unlocking the Power of LSTM for Long Term Time Series Forecasting

【论文地址】

https://arxiv.org/abs/2408.10006

论文背景

时间序列预测是统计学和机器学习中的一个重要领域，广泛应用于金融、交通、气象等领域。传统的循环神经网络（RNN）及其变体 LSTM 在时间序列建模中发挥了重要作用，但存在一些局限性，例如难以捕捉长期依赖关系以及缺乏动态调整存储决策的能力。

近年来，Transformer 架构在自然语言处理（NLP）中取得了巨大成功，其引入的自注意力机制能够有效捕捉长距离依赖关系。然而，LSTM 在某些应用场景中仍具有独特优势，例如较低的时间和空间复杂度以及良好的可解释性。因此，探索如何改进 LSTM 以提升其在时间序列预测中的性能具有重要意义。

最近，一种名为 sLSTM 的扩展 LSTM 版本被引入，表明人们不仅可以修订存储决策，还可以提高其存储容量，从而在各种 NLP 任务中取得了非常有竞争力的性能。鉴于在 NLP 中先进 LSTM 的成功，那能否解锁 LSTM 在时间序列预测中的潜力呢？

在本文中，研究者通过重新提出适用于多变量时间序列预测的 sLSTM，给出了肯定的答案，从而得出了新方法 P-sLSTM。本文主要贡献如下：

解释了为什么 sLSTM 框架能够提高存储容量并修订存储决策，使其适用于时间序列预测；
严格地证明了 sLSTM 不能保证具有长记忆来捕获长期依赖性。基于之前的限制，研究者应用了 patching 技术来解决这个问题，并开发了基于 LSTM 的结构 P-sLSTM，用于时间序列预测；
在各种数据集上的广泛评估表明，P-sLSTM 的性能比原始 LSTM 提高了20%的准确性，并达到了与最先进的 SOTA 模型相当的性能。
‍

sLSTM 架构回顾

最近提出的 sLSTM 架构通过引入指数门控和记忆混合机制，在 NLP 任务中表现出色。sLSTM 的主要改进包括：

指数门控：在遗忘门和输入门中使用指数激活函数替代传统的 sigmoid 函数，能够更灵活地控制信息流，并缓解梯度消失问题。
归一化状态：sLSTM 引入了归一化状态，并修改了隐藏状态的计算，有助于稳定长序列上的隐藏状态计算。
记忆混合机制：通过多头结构和块对角线循环权重矩阵，允许模型动态整合不同时间步的记忆，增强对长期依赖关系的捕捉能力。

尽管 sLSTM 在 NLP 任务中取得了成功，但直接将其应用于时间序列预测任务时仍面临挑战。论文通过理论分析和实验验证，发现 sLSTM 在某些情况下可能仍然存在短记忆问题，限制了其在长期时间序列预测中的性能。

P-sLSTM 模型

研究者将 sLSTM 定义为一个马尔可夫链过程，并分析了其记忆特性。通过扩展 Zhao 等人的工作，论文证明了 sLSTM 在某些条件下可能仍然具有短记忆特性，这表明仅靠 sLSTM 的改进可能无法完全解决长期依赖问题。

为了克服 sLSTM 的短记忆问题，研究者提出了 P-sLSTM 模型，图1展示了设计的 P-sLSTM 的整体结构，其中多变量时间序列数据被划分为不同的通道，这些通道共享相同的主干结构但独立处理。每个通道的单变量序列被分割成 patch，经过一个线性层处理，经过几个系统块后，另一个线性层产生最终预测。

图1：P-sLSTM架构概览（左上：sLSTM结构；左下：sLSTM模块）

P-sLSTM 主要改进包括：

Patching 技术：受 Transformer 架构中 patch 成功的启发，研究者将时间序列划分为多个 patch，使模型能够分别处理这些片段并最终整合全局信息，这能够有效缓解 sLSTM 的短记忆问题。

通道独立性（Channel Independence, CI）：首次将 CI 技术引入基于 RNN 的模型中，避免过拟合并提高计算效率。CI 技术允许模型独立处理多变量时间序列中的每个通道，从而更好地捕捉各通道的特征。

通过这些改进，P-sLSTM 能够更好地捕捉时间序列中的长期依赖关系，同时保持较低的时间和空间复杂度。

实验分析

01 主要预测结果

P-sLSTM 在多个数据集和预测长度设置中表现出色，获得了23次第一名和10次第二名的成绩。

P-sLSTM 在大多数情况下优于 sLSTM（90%的设置）和传统 LSTM（95%的设置），显示出其在时间序列预测中的优越性。

在 PEMS03 数据集上，P-sLSTM 的性能不如其他数据集，可能是因为该数据集非常嘈杂，而 P-sLSTM 没有包含去噪机制。

表1：展示了不同基线模型在时间序列预测任务中的量化结果

02 不同patch大小的影响

随着 patch 大小的增加，预测精度会先增加，达到一个最优解后，随着 patch 大小的进一步增加，预测精度会下降。

较小的 patch 会破坏原始时间序列的顺序信息，导致 sLSTM 无法有效处理。
较大的 patch 包含过多信息，导致过去的信息会削弱模型整合新信息的能力。

适当的 patch 大小可以显著提升模型性能，但最优的 patch 大小需要根据具体数据集进行调整。

图2：不同补丁尺寸对P-sLSTM在Weather和Electricity数据集上性能的影响

03 不同回溯窗口大小的影响

与 LSTM 和 sLSTM 相比，P-sLSTM 通过 patching 机制能够更好地捕捉长期依赖关系，因此随着回溯窗口的增加，预测精度会提高。

图3：在Weather和Electricity数据集上，长期预测（T=720）中，具有不同回溯窗口大小的模型的均方误差（MSE）结果

04 记忆混合的消融研究

记忆混合机制略微提升了模型性能，但提升幅度有限。记忆混合机制有助于模型选择重要的过去时间信息，但其对性能的提升作用有限。

表2：在Weather数据集上关于记忆混合的消融研究

05 通道独立性的重要性

通道独立（CI）策略的 P-sLSTM 在训练误差上略高于通道混合（CM）策略，但在验证误差和测试误差上均低于 CM 策略。CI 可以显著防止过拟合，提高模型的泛化能力。

表3：在P-sLSTM上对比CI与CM策略

06 时间效率研究

P-sLSTM 具有最低的计算成本，这表明基于 RNN 的方法在时间序列预测中的潜力。

表4：P-sLSTM和iTransformer在天气和ETTm1数据集上的计算效率

总结

本文研究者针对长期时间序列预测任务开发了一种基于 LSTM 的方法，即补丁分割长短期记忆网络（P-sLSTM）。结合了自然语言处理中的 sLSTM 框架与补丁分割技术，以解决原始 LSTM 或一般 RNN 可能存在的短期记忆问题，同时采用通道独立技术来避免过拟合问题。

这项工作将激发对基于 RNN/LSTM 的模型在时间序列预测任务中的新一轮探索，并为 RNN 结构及其应用提供有价值的见解。未来的工作可能会考虑使用更复杂的补丁分割技术，以尽可能保留时间序列的原始周期性。此外，LSTM/RNN 仍存在一些已知局限性，例如它们无法进行并行计算。为了帮助模型实现并行计算，可以考虑添加 mLSTM，这是另一种 LSTM 结构，能够在时间序列问题中进行并行计算。

编辑：王菁

‍‍‍

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。