DAFA-BiLSTM: Deep Autoregression Feature Augmented Bidirectional LSTM network for time series predic

流浪的诗人，

已于 2023-12-06 14:13:21 修改

阅读量274

点赞数

分类专栏：读论文文章标签： lstm 深度学习人工智能

于 2023-11-29 20:31:40 首次发布

本文链接：https://blog.csdn.net/qq_59482564/article/details/134697357

版权

读论文专栏收录该内容

71 篇文章 6 订阅

订阅专栏

Abstract

时间序列预测模型使用外源或内源序列的过去信息来预测未来序列，在现实世界中发挥着重要作用，因为大多数现实世界时间序列数据集都富含时间相关信息。大多数传统的时间序列数据集预测模型非常耗时且充满复杂的局限性，因为它们通常无法充分利用变量对之间的潜在空间依赖性。作为循环神经网络的成功变体，长短期记忆网络（LSTM）已被证明比传统机器学习模型具有更强的非线性动力学来存储顺序数据。然而，常见的浅层 LSTM 架构在完全提取长间隔序列数据集的瞬态特征方面的能力有限。在本研究中，提出了一种新颖的深度自回归特征增强双向 LSTM 网络（DAFA-BiLSTM）作为用于时间序列预测的新深度 BiLSTM 架构。最初，输入向量被输入向量自回归（VA）变换模块，以无监督的方式表示输入信号的时滞线性和非线性特性。然后，将学习到的 VA 非线性组合向量逐步馈入 BiLSTM 的不同层，并且前一个 BiLSTM 模块的输出也与 VA 的时滞线性向量连接作为增强特征，形成新的附加输入信号下一个相邻的 BiLSTM 层。通过广泛的现实世界时间序列应用来证明所提出的 DAFA-BiLSTM 的优越性和鲁棒性。对比实验结果和统计分析表明，所提出的DAFA-BiLSTM即使在噪声环境下也具有良好的自适应性能和鲁棒性。

1. Introduction

目前，现实世界的时间序列数据已经吸引了各个领域的社区，包括趋势检测（Anghinoni、Zhao、Ji 等，2019）、强大的流形广泛学习系统（Feng、Ren、Han 等） al.，2019）和天气预报（Karevan & Suykens，2020）。时间序列预测受到线性统计模型的启发，实现了过去几年的预测活动。这些统计经典线性模型包括自回归模型（Box，Jenkins，Reinsel，et al.，2015），移动平均模型（van Rossum＆Kemperman，2017）和自回归移动平均模型（Yang，Pan，Tao，et al.， 2018）。这些经典线性模型简单而高效，但经典线性模型不能很好地捕捉由突发性、高度不稳定和间歇性信息组成的非线性动态特征。随后，几统计非线性时间序列预测器已经被提出，例如非线性尖峰和非下采样剪切波变换（Long，Liu，Peng，et al.，2022）和双线性模型（Tran，Iosifidis，Kanniainen，et al.，2018）。然而，这些统计非线性预测模型仍然无法充分利用序列变量对之间潜在的空间依赖性，并且充满许多局限性。

机器学习算法，例如支持向量回归（SVR）（Xue、Zhang、Cheng等人，2020）、双正交径向基函数网络（Billings & Hong，1998）和基于艾略特波浪模式的人工神经网络（ANN））（Jarusek、Volna 和 Kotyrba，2022）引起了极大的关注，并被证明是预测界统计算法的有力竞争对手，因为它们凭借丰富的泛化能力、特征捕获能力和自学习能力而表现出了更好的预测性能。然而，前面提到的机器学习算法和前馈神经网络（FFANN）在时间序列预测任务中的性能有限，因为它们没有考虑顺序变量之间的时间序列相关性以及缺乏记忆和动态能力。循环神经网络（RNN），被发现比 FFANN 更适合的是具有记忆的顺序系统的自然模型，RNN 被认为是时间序列预测最有效的模型之一（Cossu、Carta、Lomonaco 等，2021）。然而，传统的 RNN 无法处理长程时间依赖性、混沌性和高维时间序列数据集，这使得 RNN 的序列预测性能下降（Bengio、Simard 和 Frasconi，1994）。

为了解决传统 RNN 的缺点，Hochreiter 和 Schmidhuber 采用了一种长短期记忆 (LSTM) 网络，该网络被视为扩展 RNN（Hochreiter 和 Schmidhuber，1997）。 LSTM 通过插入多个多阈值门来解决记忆和遗忘问题，从而捕获序列数据的长期和短期依赖性。然而，标准 LSTM 在处理时间序列数据集时往往会忽略过去和未来的序列信息。一个明显且直观的解决方案是通过给网络时间步长来合并过去和未来的顺序信息来添加输入和目标之间的延迟，而添加延迟通常需要大量的手动调整，这会降低建模能力并增加设计量时间。双向 LSTM (BiLSTM) 网络用于补偿 LSTM 的限制，即通过同时对两个方向的输入信号进行建模来训练来自一个方向的输入。然而，BiLSTM 中的组合特征表示仍然不确定，并且所提出的双向传播可能导致参数过于复杂、信息冗余和收敛缓慢（Schuster & Paliwal，1997）。同时，浅层结构的LSTM和BiLSTM不能有效地表示时间序列数据集的足够特征，特别是对于具有高非线性的长时间依赖性序列数据集（Miao，Li，Sun等人，2019）。浅层结构 LSTM 总是需要更多的循环神经元才能完成与多层 LSTM 相同的数据拟合能力。浅结构 BiLSTM 的这些限制正在成为其广泛应用的主要障碍，特别是在长时间依赖和强非线性时间序列数据集中。与浅层结构 LSTM 模型不同，混合和增强的深度 LSTM 模型可以同时处理特征学习问题和非线性动力学，已经在现实世界的时间序列数据集中证明了其优越性和鲁棒性。苗等人。 (2019) 提出了一种新颖的双任务深度 LSTM 模型，用于自动学习航空发动机的退化评估和剩余使用寿命预测。 Altan、Karasu 和 Zio（2021）采用基于 LSTM 的混合风速预测模型，通过灰狼优化器的新颖分解机制来捕获风速时间序列数据集的非线性特征。 Karasu和Altan（2022）提出了一种混合原油价格预测模型，该模型由经典的LSTM、数据预处理指标和混沌亨利气体溶解度优化组成，使预测模型具有最低的复杂性。

人们引入了许多处理方法来促进深度学习 ANN 或 LSTM 模型的架构，这些模型受到特征提取和数据表示不足的限制。通过深度 RNN 结构的无监督预训练来增强监督学习的解决方案之一被引入为自组织多级层次结构和 RNN（Schmidhuber，1992），这被称为压缩师生学习者的行为或知识蒸馏（ Gou、Yu、Maybank 等，2021）。这种数据压缩机制显然可以使 RNN 的梯度消失问题变得不那么重要。另一种解决方案采用了深度信念网络（DBN）的无监督逐层预训练算法（Hinton、Osindero 和 Teh，2006），该算法已被证明是计算机视觉中的成功应用，分类和回归。为了提高回声状态网络（ESN）这种RNN的特殊结构的特征提取能力，最近提出了许多ESN设计结构策略。例如，一种经过特殊修改的 ESN 结构，称为具有随机静态投影的储层（Butcher、Verstraeten、Schrauwen 等人，2013 年）和两层动态和静态 φ − ESN（Gallicchio 和 Micheli，2011 年）表明，添加ESN 输入层之上的静态前馈层将显着提高 ESN 模型的非线性计算能力。这给了我们在深层 BiLSTM 输入层之上添加特征表示层或构建特征提取和无监督预训练算法的混合模型的灵感。值得注意的是，Gauthier、Bollt、Griffith 等人提出的时滞向量自回归油藏计算（VA-RC）或 ESN。（2021）不需要随机输入和循环权重矩阵，可以完全等价于数学 RC 或 ESN。在 VA-RC 中，不需要输入权重或循环权重。 VA 的特征向量由动态输入数据集的 k 个延时观测值组成。因此，ESN 的经典隐藏层状态等同于对这些观测值的线性和非线性操作的组合。令人惊讶的是，由于 VA-RC 的少参数设计，针对特定动态系统设计 VA-RC 实际上比设计最佳 ESN 容易得多。 VA的显着优点是多尺度潜在动态信息，包括线性和非线性特征，复杂参数少，冗余信息少。因此，对 VA 机制的研究可以作为一种快速、简单的预训练增强和混合模块，以克服单一深度 LSTM 模型的局限性，提高深度 LSTM 模型的性能。

为了提高时间序列数据集的预测精度并增加 BiLSTM 网络的特征表示，本文提出了一种新型深度自回归特征增强双向 LSTM 网络（DAFA-BiLSTM），并将其应用于现实世界时间序列预测。在新颖的 DAFABiLSTM 架构中，用于获取输入序列的线性和非线性特征观测的 VA 层连接到深度增强 BiLSTM (DA-BiLSTM) 模块，其中VA层用作每个BiLSTM层的附加输入信号，VA层的非线性组合特征向量直接用作底部BiLSTM层的输入并馈送到DA-BiLSTM的顶层。显然，Deep BiLSTM更适合处理非线性组合特征向量，因此可以直接将线性特征向量作为Deep BiLSTM各层的附加输入，以便更好地对非线性组合特征向量进行建模，而线性特征向量则直接用作深度 BiLSTM 的额外输入以防止特征丢失。与现有的深度LSTM模型不同，DAFABiLSTM由一个VA模块和多个DA-BiLSTM层组成，其中每个BiLSTM层都是为了映射VA模块提取的每个非线性观测的动态而构建的。在DA-BiLSTM中，前一个BiLSTM层的输出与VA层的外部延时线性输入向量连接起来，形成下一个相邻层的新的附加输入。 DAFA-BiLSTM的最终预测精度是通过连续学习每个变量的预测值来获得的。所采用的 DAFA-BiLSTM 的性能是通过大量不包括混沌序列的真实时间序列基准来模拟的，因为 Shahi、Fenton 和 Cherry（2022）发现，尽管包括 LSTM 在内的门控 RNN 方法通常在以下方面取得了成功预测序列数据集，但它们在预测混沌序列方面仍然存在不足。同时，ESN 和 VA-RC 模型具有更高的计算效率，为混沌序列的长期预测提供了更多前景。

目前工作的主要贡献可以体现在以下三个方面：

1.我们在 DAFA-BiLSTM 模型中结合了 VA 机制和深度 BiLSTM 的优点。作为一种预训练技术，VA机制被提出来有效地表示输入时间序列信号的线性和非线性特征，DABiLSTM被提出来从不同方向学习非线性特征信息，同时生成层次特征表示，这使得所采用的DAFA -BiLSTM 在预测时间序列数据集方面获得了惊人的性能。

2. DAFA-BiLSTM 结构被创建为由多个堆叠 BiLSTM 层组成的增强结构，允许通过连续学习分层层中的线性和非线性特征来获得动态特征。同时，DAFA-BiLSTM模型可以有效学习时间序列数据集的多特征尺度信息，并允许模型同时训练两个方向的时间序列。因此，所提出的 DAFA-BiLSTM 在处理时间序列预测方面更加稳健。

3. 通过考虑广泛的现实世界时间序列基准来评估所使用的 DAFABiLSTM 的性能和泛化性，并与一些基线和最先进的基于 LSTM 的时间序列预测模型进行比较。验证测试和统计分析包括 10 倍交叉验证的箱线图、高斯噪声实验的信噪比 (SNR)、回归分析、异方差测试结果、敏感性分析 (SA) 和输出权重热图可以解释为什么DAFA-BiLSTM模型取得了令人满意的性能和惊人的结果，相应地，也证明了所提出模型的可解释性。

本研究的其余部分安排如下：第 2 节给出了 VA、BiLSTM 和深度 BiLSTM 的基本背景。第 3 节详细说明了所讨论的 DAFA-BiLSTM 的结构和训练方法。第 4 节概述了模拟时间序列实验结果和讨论。最后，第五节总结了结论。

2. Related background

2.1. Vector autoregression

它已在参考文献中显示。 Gonon 和 Ortega (2019) 认为，具有线性激活函数与非线性自回归特征向量相结合的 ESN 隐藏层可以等效于强大的通用函数逼近器。基于上述理论，Gauthier 等人。 (2021) 提出了一种在数学上与传统 ESN 相同的 VARC 理论。在所采用的VA-RC模型中，VA-RC中不需要输入权重和循环权重，并且VA的特征表示向量仅由k个时滞观测值的线性和非线性组合组成，如图1所示VA本质上是一种核方法，是解决非线性模式识别问题的有效算法。 VA的关键思想是通过一定的线性和非线性映射将原始输入信号向量嵌入到适当的高维特征空间中，然后将输入信号向量在新的空间中进行处理，以明确避免在高维中求解映射特征空间。

假设 v = [v1, v2,. 。。 , vt ] 是 t 长度的输入时间序列向量。 VA的输出状态相当于k个时滞线性向量自回归矩阵Xlin和d阶多项式非线性向量自回归矩阵Xnonlin的组合，如下所示：

其中 ⊗ 表示元素乘积，其中两个向量逐个元素相乘。那么，VA的总输出状态矩阵X可以等于Xlin和Xnonlin的组合，可以表示为X = [Xlin Xnonlin]T，其中T表示转置。经验证，VA比传统ESN更容易设计，并且VA可以作为时间序列数据线性和非线性特征的有效表示（Gauthier et al., 2021）。 VA 的优点可以体现在三个具有挑战性的方面：（1）预测序列数据集的短期动态；（2）重新生成混沌序列的吸引子和长期动态。 (3) 预测动态系统的未见行为。

2.2. Bidirectional LSTM

LSTM 是传统 RNN 的改进版本，它使用专门构建的 LSTM 存储单元来有效地表示时间序列数据集中的长期依赖性。与传统的RNN相比，LSTM的发明旨在为社区提供足够的算法来处理梯度消失问题。 LSTM 根据当前输入和先前的循环神经元状态保留当前的循环神经元状态，只不过循环单元的结构被能够表示顺序数据集中的长期依赖关系的各种记忆单元所取代。 LSTM 单元引入了四个门单元，分别定义为输入门、输出门、遗忘门和自循环记忆单元，以控制不同记忆单元之间信息流的交互，如图 2 所示。

遗忘门可以选择保留或忘记之前时间步中的哪些状态信息；输入门决定需要将什么模式的输入向量输入到存储单元状态中；相比之下，输出门控制它是否可以改变其他存储单元状态。假设 Xt 和 Ht 分别表示时间步 t 处的顺序输入数据和循环输出状态。门、隐藏输出和单元状态可以通过以下方程计算：

其中W i、W f 、W o 和W c 表示四个门的循环权重矩阵，U i 、U f 、U o 和U c 表示输入门、遗忘门、输出门的权重矩阵，和存储单元门，分别。门的偏置是用 bi、bf、bo 和 bc 表示。 ht 是指时间步 t 时隐藏层的状态，Ot 是时间步 t 时的输出。 ̃ Ct 表示候选单元状态，用于更新原始存储单元 C t 。 tanh代表双曲正切函数，σ代表logistic sigmoid激活函数.

传统的LSTM在训练过程中可能会丢失有价值的特征信息，因为它只考虑沿一个特定方向的输入向量，从而无法彻底分析序列信息。因此，BiLSTM被设计为通过双向结构来捕获前向和后向的时间序列数据表示，如图3所示。

BiLSTM 在前向和后向传播方向上覆盖两个并行的 LSTM 层。在前向方向上，内部状态将信息存储在 Hf (t) 中过去的时间序列值；在向后方向上，来自未来序列值的信息存储在 Hb(t) 中。时间步 t 处的单独隐藏状态 Hf (t) 和 Hb(t) 按顺序链接以生成最终输出。 BiLSTM 网络在时间步 t 的两个方向层的循环状态如下所示：

BiLSTM 在前向和后向传播方向上覆盖两个并行的 LSTM 层。在前向方向上，内部状态将过去时间序列值的信息存储在Hf(t)中；在向后方向上，来自未来序列值的信息存储在 Hb(t) 中。时间步 t 处的单独隐藏状态 Hf (t) 和 Hb(t) 按顺序链接以生成最终输出。 BiLSTM 网络在时间步 t 的两个方向层的循环状态如下所示：

其中权重矩阵 Wfh 和 Wbh 分别表示从输入到循环单元的前向和后向权重。 Wfh和Wbh分别指从循环单元到自身的前向和后向权重。同时，bfb和bb分别表示两个方向的偏置信号。ψ表示循环层激活函数，本文将ψ设置为tanh。 BiLSTM 生成最终输出向量 Y t，显示如下：

其中Wfhy和Wbhy分别表示从内部单元到输出的前向和后向权重，σ表示输出层激活函数，设置为sigmoid或线性函数，by表示输出层的偏置向量。

3. Deep autoregression feature augmented BiLSTM

许多研究表明，增加 ANN 的深度可以有效提高 ANN 的性能（LeCun、Bengio 和 Hinton，2015）。同样，深度 RNN 在时间序列预测领域的特征提取能力也给社区留下了深刻的印象（Cheng、Wang、Wu 等，2022）。受深度 RNN 的特征提取能力和 VA 的特征表示能力的启发，提出了一种用于时间序列预测的 DAFA-BiLSTM，该 DAFA-BiLSTM 由通过增强结构连接的多个 BiLSTM 层组成，如图 4 所示。 BiLSTM网络由两部分组成：基于VA的线性和非线性特征表示部分和基于深度增强BiLSTM的预测模型。 VA 输出的特征向量被转换为时滞线性和多项式非线性特征表示。线性观测被视为堆叠 BiLSTM 层的每一层的附加输入向量进行预测，非线性观测被连接到多个 BiLSTM 层的底部。同时，前一个 BiLSTM 层的输出连接到线性观测向量，为下一个 BiLSTM 层形成新的输入信号。

所采用的DAFA-BiLSTM的主要优点可以概括如下：

（1）VA简单有效的特征表示能力进一步增强了深度BiLSTM的学习能力

模型，这改进了所提出的时间序列数据集的 DAFA-BiLSTM 的特征表示和整体性能。同时，VA机制使得DAFA-BiLSTM的信息流更加清晰明确，从而部分增强了DAFA-BiLSTM的可解释性。

（2）DAFA-BiLSTM模型结合了深度和BiLSTM架构，其中深度增强结构可以增强模型的学习和适应能力，而双向结构可以使DAFA-BiLSTM有效地学习不同方向的时间序列特征，从而使模型更适应顺序数据集的自然特征。

(3) 与传统的多层LSTM结构不同，DAFA-BiLSTM的深层结构是包含多个BiLSTM层的增强结构，其中每个BiLSTM层都具有VA模块变换后的特征向量的动态特征映射能力，模型DAFA-BiLSTM 的预测结果不仅可以通过连续学习前一个 BiLSTM 层的输出来影响，还可以通过在每个 BiLSTM 层中添加更多时滞线性特征来影响。也就是说，与传统的深度 LSTM 结构相比，所提出的 DAFA-BiLSTM 在预测时间序列数据集方面更加灵活和鲁棒。

为了简化实验，每个 BiLSTM 的前向层和后向层都使用相同的循环层大小 N；假设 H (i) f (t) 和 H (i) b(t) 分别是第 i 个 BiLSTM 层在时间步 t 的前向和后向循环层输出状态，并且 b(i) fb , b(i) b和b(i) y分别表示第i个BiLSTM层的前向、后向和输出偏置向量。循环层的输出状态和第 i 个 BiLSTM 模块的网络输出计算如下：

在本文中，我们利用自适应矩估计（Adam）算法（Kingma & Ba，2015）作为优化器来更新 DAFA-BiLSTM 的权重，初始学习率为 0.0015。训练损失函数设置为均方误差（MSE），

其中 ˆ Y t 是实际预测输出，Y t 是期望输出，n 是 Y t 的总数。

如图 4 所示，DAFA-BiLSTM 通过利用 VA 模块将输入向量映射到其线性和非线性表示来进行初始化。然后将获得的非线性观测值输入到 DA-BiLSTM 模块的底部，每个 BiLSTM 层有两个传播方向。然后，DA-BiLSTM 的最后输出被馈送到全连接层作为回归层，并以校正后的线性神经元作为激活函数。同时，在 BiLSTM 层中设置 0.2 的 dropout 概率，以确保 DAFA-BiLSTM 不会过度拟合时间序列数据集。采用的DAFA-BiLSTM超参数总结在表1中。DAFA-BiLSTM的学习算法如下所示

4. Experimental results and evaluation

在这一部分中，四个常见的基线时间序列数据集，分别是圣达菲激光序列任务（Wang，Wu，Xin，et al.，2020），太阳黑子序列（Li，Zhang，et al.，2021），太阳能（ Solar E) (Wang, Liu, Lu, et al., 2022) 和墨尔本温度 (MT) (Gil-Alana, 2004)；两个金融时间序列数据集，分别是汇率（Li et al., 2021）和标准普尔 500 (SP500)（Parvini, Abdollahi, Seifollahi, et al., 2022）；模拟了两个真实世界的多元数据集，即热交换器（HX）系统（Wang et al., 2020）和伯明翰停车任务（Stolfi, Alba, & Yao, 2017），以测试所提出的预测性能DAFA-BiLSTM 模型。在里面接下来的实验，每个实验数据集分为三个部分：训练集、验证集和测试集。每个 BiLSTM 层中的神经元和层数是根据输入数据的数量和维度设置的，通常是根据经验和实验确定的。在本研究中，验证集用于确定 DAFA-BiLSTM 网络中的超参数，例如延时长度 k、多项式阶数 d、BiLSTM 层数 (M) 以及每个 BiLSTM 隐藏层的神经元数 (N)直到建立的DAFA-BiLSTM达到满意的验证性能。 X 的维度由 k 和 d 自动确定，如式（1）所示。（20）。以下所有实验均在基于 Intel 的 Core i5-8265U（1.60 GHz CPU 和 8 GB RAM）上运行。

DAFA-BiLSTM网络通过三个损失函数进行评估，分别是归一化均方误差（NMSE）、平均绝对误差（MAE）和平均绝对百分比误差（MAPE），如下所示：

其中 ˆ yt 是实际预测输出，yt 是期望输出，σ 2 表示 yt 的方差，n 是 yt 的总数。本文通过10次模拟得到平均测试NMSE、MAE和MAPE误差，对模拟数据集进行反复验证。

为了说明 DAFA-BiLSTM 对每个序列数据集的有效性，采用了单层 LSTM、单层 BiLSTM、深度 LSTM、深度 BiLSTM 和 DA-BiLSTM 等消融模型来进一步说明 DAFA-BiLSTM 的有效性。此外，还对所提出的 DAFA-BiLSTM 网络进行了评估，并与经典 SVR、Elman (Elman, 1990)、门控循环单元 (GRU) (Weerakody, Wong, Wang, et al., 2021)、ESN 以及最近的一些网络进行了比较采用了最先进的 LSTM 网络，即注意力 LSTM（Ding、Zhu、Feng 等，2020）、堆叠式双向和单向 LSTM（SBU-LSTM）（Cui、Ke、Pu 等）。，2020），基于进化注意力的深度 LSTM（EA-LSTM）（Li，Zhu，Kong，Han，＆Zhao，2019），LSTM-FCN（Karim，Majumdar，Darabi，et al.，2019），以及两个流行的基于变压器的模型、Reformer（Kitaev、Kaiser 和 Levskaya，2020）和 Informer（Zhou、Zhang、Peng 等人，2021）。

4.1. Hyperparameter settings

在接下来的预测模拟中，对DAFA-BiLSTM影响较大的超参数包括k、d、M和N，并选择使模型达到最小验证NMSE的超参数作为最终参数值。 k选自1~5的整数范围，间隔为1。d选自2~5的整数范围，间隔为1。M选自1~6的整数范围，间隔为1。 . N选自10~100之间的整数，间隔为10（[10, 20,...,100]）。对于所采用的时间序列任务，具有不同 k、d、M 和 N 变化的验证 NMSE 如图 1 和 2 所示。 5-8，评估的DAFA-BiLSTM模型的最终超参数设置总结在表1中。为了保证比较的公平性，基于LSTM的比较模型的所有超参数，如循环神经元、训练算法、激活函数、初始学习率和 dropout 概率设置为与 DAFA-BiLSTM 相同的值。 DAFA-BiLSTM和比较模型性能的统计百分比改进（IM%）的评估指标定义如下：

其中NMSELSTM是原始单层LSTM的性能，其中超参数值（N）设置如表1所示。NMSEM是DAFA-BiLSTM或比较模型的性能。统计上显着的性能改进可以通过 IM% 来评估。

4.2. Computational complexity of VA

根据方程式。 (12)–(14)，与标准深度 BiLSTM 相比，唯一增加模型计算复杂度的过程是 VA 算法，因为 DAFA-BiLSTM 和标准深度 BiLSTM 之间的复杂度差异为 Xt = [Xlin Xnonlin ]T。 DAFA-BiLSTM模型的初始输入Xt是VA的输出，由式(1)确定。 (1)–(2)，而标准深度 BiLSTM 的输入是原始序列本身。因此，本研究中我们仅分析 VA 算法的计算复杂度。 VA模块的输出维度Xt = [Xlin Xnonlin]T由时滞参数k和基于方程的多项式阶数d确定。 (1)-(2)，如下式所示。

根据方程。（20），本研究中使用的所有多元数据集的维数并不高，因为随着Xt维数的增加，D会变得非常大，这将导致所提出模型的计算复杂度大幅增加。

4.3. Experimental time series datasets

选择不同领域中具有丰富且复杂的时间依赖性的八个真实世界单变量和多元时间序列数据集来验证所提出的 DAFA-BiLSTM 模型的有效性。

（1）Santa Fe Laser时间序列：如图9所示，Laser数据集是衡量单步预测结果性能的标准单变量基准，由于包含各种舍入噪声的混沌状态，这是极其困难的以及不同的时间尺度。前 7000 个数据集用作训练集，接下来的 7001-8000 个步骤用于验证超参数设置，最后 2000 个数据集用于测试。

图 10 显示了激光基准测试数据集 DAFA-BiLSTM 和单层 BiLSTM 在选定长度 40 个测试数据集上的预测结果。基于 LSTM 的烧蚀的 NMSE、MAE、MAPE 和 IM% 性能激光任务的模型和DAFA-BiLSTM如表2所示。

(2)太阳黑子时间序列任务：太阳黑子序列是太阳活动水平的可视化，这是一个竞争性任务（从 1749 年 1 月到 2021 年 3 月）由于其复杂性和缺乏数学统计模型，如图 11 所示。在下面的实验中，前 1000 个项目用于训练网络，接下来的 1000 个点用于超参数验证和最后 899 个数据集用于测试 DAFABiLSTM 性能。 DAFA-BiLSTM 和太阳黑子基准的单层 BiLSTM 获得的选定长度 40 个测试数据集的预测结果如图 12 所示。测试 LSTM 的 NMSE、MAE、MAPE 和 IM%基于太阳黑子任务的消融模型和 DAFA-BiLSTM 网络如表 2 所示。

（3）Solar E时间序列任务：Solar E数据集是模拟阿拉巴马州6000个太阳能光伏电站数据点，美国自 2006 年以来包括一年的 5 分钟太阳和每小时预报，

如图 13 所示。前 5000 个项目用于训练，随后 1000 个项目用于超参数验证，最后 2000 个项目用于测试。 Solar E 任务中 DAFA-BiLSTM 和单层 BiLSTM 获得的超过 40 个长度测试数据集的预测性能如图 14 所示。基于 LSTM 的消融模型和 DAFA-BiLSTM 的 NMSE、MAE、MAPE 和 IM% Solar E任务如表2所示。

(4)汇率任务：从PACIFIC Exchange Rate Service检索到的英镑/美元汇率的每周波动是真实世界的金融数据集（从1976年到1993年）。前700个数据集用作训练数据集，接下来的100个数据集用于验证模型超参数，最后300个数据集用于测试模型性能。汇率基准的 DAFA-BiLSTM 和单层 BiLSTM 获得的选定长度 40 个测试数据集的预测结果如图 15 所示。消融模型和 DAFA 的 NMSE、MAE、MAPE 和 IM%用于汇率任务的 BiLSTM 如表 2 所示。

（5）标准普尔500任务：SP500是真实世界股票市场指数，反映在证券交易所上市的美国前500家大型公司的股票表现（选取2010年至2015年间）。前800个点用于训练，接下来的200个序列被选择作为验证集，最后370个样本被选择作为测试数据集。 SP500 基准的预测结果如图 16 所示。SP500 任务的基于 LSTM 的消融模型和 DAFA-BiLSTM 的 NMSE、MAE、MAPE 和 IM% 如表 2 所示。

(6) 墨尔本温度任务：MT数据集是澳大利亚政府气象局持有的1981年至1991年间墨尔本市最低气温的真实世界序列。本实验中MT序列的总数据数为3650。前2000个点用于训练，接下来的800个序列被选择作为验证集，最后850个样本被选择作为测试数据集。 MT 基准的预测结果如图 17 所示。基于 LSTM 的消融模型和 DAFA-BiLSTM 的 MT 任务的 NMSE、MAE、MAPE 和 IM% 如表 2 所示

(7) 热交换器系统：现实世界的 HX 任务是利用两种流体之间的温差进行有效的传热，是一个复杂的非线性多元时间序列任务，如图 18 所示。前 2000 个数据集用于训练，接下来的2001-3000步HX数据集用于验证模型超参数设置，最后1000个数据集用于测试模型性能。 HX 基准的预测结果如图 19 所示。基于 LSTM 的消融模型和 HX 任务的 DAFA-BiLSTM 的 NMSE、MAE、MAPE 和 IM% 如表 2 所示。

（8）Parking Birmingham 任务：Parking 数据集是从伯明翰市议会 NCP 运营的伯明翰停车场收集的，这是一个复杂的非线性多元时间序列任务。前3000个点用于训练，接下来的1000个序列被选择作为验证集，最后1000个样本被选择作为测试数据集。 Parking benchmark 的预测结果如图 20 所示。 Parking 任务的基于 LSTM 的消融模型和 DAFA-BiLSTM 的 NMSE、MAE、MAPE 和 IM% 如表 2 所示。

4.4. Comparative results and statistical analysis

为了全面评估和分析DAFABiLSTM网络用于时间序列预测的性能，与经典SVR、Elman、GRU和ESN组成的一些基线模型进行了全面的对比测试。如前所述，我们还将 DAFA-BiLSTM 网络与一些最近提出的基于 LSTM 的最先进模型和基于 Transformer 的模型进行了比较，其中包括注意力 LSTM、SBU-LSTM、EALSTM、LSTM-FCN、Reformer 和 Informer 。用于比较的基于 LSTM 的模型中使用的所有参数均设置为与 DAFA-BiLSTM 相同的值，如表 1 所示。DAFA-BiLSTM 与其他各种时间序列预测模型的比较性能如表 3 所示，并且通过对所选时间序列数据集进行 10 倍交叉验证实验获得的 NMSE 性能箱线图测试结果如图 21 所示。

（1）从图21可以看出，与其他时间序列预测模型相比，所提出的DAFA-BiLSTM通过VA模块和深度增强结构实现了更稳定的性能。同时，所提出的 DAFA-BiLSTM 预测模型对于预测时间序列数据集更加稳健。从计算复杂度分析和表3可以看出，虽然DAFA-BiLSTM的计算时间比传统机器学习模型和基于单层RNN的模型要长，但仍然与深度LSTM相当。为基础的模型。

（2）表4的测试结果表明，当SNR设置为10或20时，DAFA-BiLSTM的预测精度明显下降。当SNR设置为80时，在大多数时间序列上都能获得相对较好的预测性能DAFA-BiLSTM 的数据集。因此，DAFA-BiLSTM模型即使在SNR环境下也具有良好的自适应性能和鲁棒性。

（3）从图22的回归曲线可以看出，DAFA-BiLSTM模型可以准确地拟合所有采用的时间序列数据集。根据图 23 中残差随拟合值的变化，可以看出，拟合值在零附近规则分布，并且随着拟合值的增加，方差没有明显变化。 DAFA-BiLSTM模型不具有异方差性，但具有同方差性。

(4) 从图 24 中的 SA 指数可以得出结论，DAFA-BiLSTM 模型对 VA 过程获得的线性时滞向量更加敏感，即 DAFA-BiLSTM 的 FA 架构对于所提出模型的性能改进。从表2也可以得出这个结论。

(5) 如表2所示，对于单层和深层LSTM结构，双向传播的性能均优于单向传播。另外，从图25中我们可以看出，单向LSTM的输出权重主要均匀分布在0的对称区间内，这意味着单向LSTM的信息是在一个方向上传播的。双向LSTM的前向和后向输出权重可以在图25中清楚地区分，这意味着如果大多数前向权重值大于0，则后向权重值大部分小于0，反之亦然。这清楚地表明DAFA-BiLSTM模型可以很好地学习时间序列数据集不同方向的特征，这进一步增加了DAFA-BiLSTM的可解释性。

5. Conclusion

本文开发了一种基于 VA 预训练模块、深度特征增强结构和 BiLSTM 网络的新型 DAFA-BiLSTM 网络，用于时间序列预测。 DAFA-BiLSTM网络利用BiLSTM和VA来彻底映射每一层序列的时间特征，捕获不同方向的不同信息。采用广泛的真实时间序列数据集来测试 DAFA-BiLSTM 的性能。对比实验结果和统计分析清楚地表明，所提出的 DAFABiLSTM 优于一些传统的机器学习模型，几个基于门控 RNN 的模型、基于 Transformer 的模型和四个最先进的基于 LSTM 的模型。同时，DAFABiLSTM模型即使在SNR环境下也具有良好的自适应性能和鲁棒性。我们相信，这些新颖的基于 BiLSTM 的深度结构和预训练方法可以在面临类似挑战的其他 RNN 建模领域中发挥作用。我们的 DAFA-BiLSTM 的局限性是超参数设置仍然需要进一步优化。连续超参数 k、d、N 和 M 的网格搜索方法需要详尽地生成候选值，这显然效率低下且耗时。 DAFA-BiLSTM 的另一个限制是，由于 VA 预处理，模型复杂度高于原始 BiLSTM 和基于门控 RNN 的模型，如式（1）所示。 (20)式中，如果k和d值太大，可能会导致维数爆炸。在我们未来的工作中，我们也许能够在其他基于 RNN 的深度模型中使用 DAFA 模块来增强泛化和鲁棒性能力。

流浪的诗人，

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
DAFA-BiLSTM: Deep Autoregression Feature Augmented Bidirectional LSTM network for time series predic

时间序列预测模型使用外源或内源序列的过去信息来预测未来序列，在现实世界中发挥着重要作用，因为大多数现实世界时间序列数据集都富含时间相关信息。大多数传统的时间序列数据集预测模型非常耗时且充满复杂的局限性，因为它们通常无法充分利用变量对之间的潜在空间依赖性。作为循环神经网络的成功变体，长短期记忆网络（LSTM）已被证明比传统机器学习模型具有更强的非线性动力学来存储顺序数据。然而，常见的浅层 LSTM 架构在完全提取长间隔序列数据集的瞬态特征方面的能力有限。
复制链接

扫一扫