Multivariate time series forecasting via attention-based encoder–decoder framework

最新推荐文章于 2024-01-07 02:05:59 发布

清风.伴酒.

最新推荐文章于 2024-01-07 02:05:59 发布

阅读量855

点赞数 2

文章标签： python 神经网络机器学习算法 pytorch

本文链接：https://blog.csdn.net/qq_41168327/article/details/115558917

版权

摘要：
时间序列预测是研究时态数据行为和预测未来值的重要技术，广泛应用于空气质量预测、电力负荷预测、医疗监测和入侵检测等领域。在本文中，我们首先提出了一种新的时间注意编解码模型来处理多元时间序列预测问题。它是一种端到端的深度学习结构，集成了传统的编码上下文向量和时间注意向量，用于联合时间表示学习，它基于双向长短期记忆网络(双LSTM)层，以时间注意机制为编码网络，自适应地学习多变量时间数据的长期相关性和隐藏相关性特征。在五个典型的多元时间序列数据集上的大量实验结果表明，与基线方法相比，我们的模型具有最好的预测性能。

方法：
问题阐述

时间序列数据通常是随时间测量的值序列(以离散或连续的形式)。时间序列的动态更新性、不确定性和高维性使其不同于图像、文本等其他数据。时间序列预测一直是数据挖掘任务中一个非常重要的研究领域，其目标是预测未来时间值的变化。而不同类型的时间序列数据的观测时间间隔往往是不同的，由传感器的规格决定，例如交通流时间的观测时间序列数据间隔可能为5 min、15 min、60 min等。PM2.5时间序列的观测时间间隔通常为1小时。

多变量时间序列通常在每个观察时间步长包含多个变量值。多变量时间序列的每个变量不仅取决于其过去的值，在某些情况下还取决于其他变量的值。这些潜在的相关性对于建模多元时间序列数据至关重要。如何学习多元时间序列数据中被监控的多个变量的相关特征，对于时态数据建模是非常重要的，这也是本文关注多元时间序列预测问题的原因。

然后我们给出了多元时间序列预测任务的一般定义，其目标是基于历史时间序列数据集预测未来t+1时刻的现值f t+1或t+ p时刻的f t+ p。模型输入包括f i本身和多元时间序列的其他变量。以交通流量预测为例，它不仅包括流量变量，还包括其他变量，如交通速度、交通密度和道路长度。
在这里插入图片描述

如上式所示，本文的多元时间序列多步预测任务表示为预测时间序列数据的下一个p值, 给定历史多元时间序列数据集，其中l表示历史数据的查找大小，n表示输入数据的可变数量，p表示多步前向预测大小。

概述

本文提出了一种基于注意力的编解码结构的多元时间序列多步预测框架(如图1所示)，该框架由三个部分组成:作为编码部分的双LSTM、作为解码部分的LSTM和作为注意部分的时间注意上下文层。利用双LSTM学习任意长度输入数据的隐藏表示，从多元时间序列中提取深度时间相关性特征，然后利用时间注意层构造潜在空间变量(时间注意上下文向量)。LSTM解码器负责根据生成的潜在空间变量预测未来时间序列值。图1示出了所提出的框架的图示，其可以在端到端过程中对多变量时间序列数据建模。
在这里插入图片描述

LSTM是学习原始时间序列数据的长期时间相关性特征的流行方案。典型的LSTM单元包含五个组件:分别作为LSTM单元的输入门、遗忘门、记忆单元，输出门和隐藏状态。如图1的右下角所示，典型的LSTM单元块包括三个门和一个存储单元单元，其具有基于这些组件忘记或存储信息(确定有多少信息应该被传送到下一个单元)的能力。
在这里插入图片描述

如上述公式所示，对于在t时间步长的输入时间序列值，LSTM单元计算隐藏状态h t和记忆单元s t，记忆单元s t是直到t时间步长的输入时间序列值的编码，σ是激活函数，并且是元素乘法

然而，传统的LSTM有一个弱点。它只能学习时间序列数据的前一个上下文，而不能学习相同序列数据的前一个上下文。因此，我们使用双LSTM作为编码器，它可以通过两个互连的隐藏层同时处理不同方向的顺序数据:一个方向的处理使用从t = 1到T的前向隐藏层；另一个方向过程使用从t = T到1的后向隐藏层。经典的双LSTM计算过程如下:
在这里插入图片描述

如上述公式所示，箭头表示处理方向，h t表示双LSTM的最终隐藏输出，合并前向输出和后向输出。我们使用双向LSTM作为编码器组件，使用LSTM作为解码器组件，通过生成基于先前时间上下文和先前生成的值的目标值来预测多步时间序列值。换句话说，双向LSTM编码器负责将输入数据编码到上下文生成。它是一个固定的向量，作为输入数据的时间表示。LSTM解码器解码并生成目标序列作为多步前向预测值。目标序列的概率可以计算如下:
在这里插入图片描述

其中是历史多元时间序列的模型输入，表示时态数据的第i个时间步长观测变量，以及是多步预测目标值，其长度可以不同于输入长度(称为查找大小或窗口大小)。如上所述，我们给出了经典编码器-解码器的计算过程，该过程可用于对多变量时间序列数据建模并完成多步预测任务。

然而，经典的编码器-解码器深度学习结构存在缺陷，即编码器必须将过去时间信息的所有隐藏表示压缩成固定长度的文本向量。因此，预测能力将随着输入时间序列长度的增加而逐渐下降。鉴于这一困难，本文首次提出了一种处理多元时间序列预测任务的时间注意机制。时间关注层被设计并标记为编码器和解码器之间的接口。我们使用双LSTM作为编码器，它可以采用可变长度的时间序列作为通过递归处理和保持其内部隐藏状态h的输入。在每个时间步t，LSTM读取xt并更新其隐藏状态h t，如下所示:
在这里插入图片描述

其中箭头表示处理方向，h t 表示双向LSTM输出，该输出合并前向输出和后向输出。然后基于双LSTM产生时间注意上下文向量作为编码器网络的隐藏状态的加权和，用于选择编码器隐藏表示的最佳帧并使解码器关注这些帧。时间注意层计算过程可以描述如下:
在这里插入图片描述

如以上公式所示，公式(23)表示去编码器层的隐藏状态Si-1和编码器层的隐藏状态ht之间的软对齐计算。公式(24)指示对应于时间步长T处的输入时间序列帧的重要性的关注权重，以预测时间步长i处的输出值，其使用softmax函数来归一化长度为T的向量e i，作为输入时间序列上的关注掩码。作为公式(25)的h a是关注层的最终状态。模态训练问题是最小化历史训练集的负对数似然，可以描述如下:[
在这里插入图片描述