NeurIPS 2024时间序列顶会:重新思考时间戳在稳健时间序列预测中的作用:全局-局部融合视角

标题:Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective
链接:https://arxiv.org/pdf/2409.18696
发表年份:2024年
发表会议:NeurIPS 2024

问题:

由于时间戳包含丰富的季节性信息,因此有可能为预测技术提供强大的全球指导。 例如,工作日的交通量通常会出现高峰。 遗憾的是,现有的工作主要关注局部观察,时间戳仅被视为可选补充,仍未得到充分利用。 DLinear [41] 和 FPT [47] 完全忽略了时间戳。 Informer [45] 和 TimesNet [38] 通过将它们的嵌入与位置嵌入和数据嵌入相加来合并时间戳。 这些交织在一起的模式鼓励网络从更直观的观察中提取信息。 iTransformer[24] 将时间戳特征单独嵌入到注意力机制使用的标记中。 这种跨时间点的嵌入方法破坏了时间戳的物理意义。 为了验证这个命题,我们使用流量数据集对上述模型进行了消融研究。 图 1(a) 所示的结果表明,删除时间戳后模型的性能没有表现出显着下降。 与此同时,我们提出的 GLAFF 展示了主流预测模型的显着增强。
此外,从现实世界收集的时间序列经常受到污染[5]。 例如,用电量激增加上短路可能会引发点异常,而节假日期间交通量的减少可能会引发上下文异常。 当从现实世界收集的局部信息包含异常时,全局信息的缺乏将损害大多数预测技术的稳健预测能力[7,39,43,46]。 我们在图 1(b) 中以小时为单位展示了旧金山湾区高速公路的交通量。 通常,该序列表现出清晰的周期性模式,交替出现五个高峰(工作日)和两个低峰(周末)。 但由于放假,24至192周出现偏差,出现3个高峰、4个低峰。 从图1(b)右下角的图示可以看出,主流预测模型[24,38,41]通常表现出可靠的预测能力。 尽管如此,当历史窗口内的观察结果包含异常时,如图 1(b) 左下角所示,这些模型会受到显着影响,并产生明显低估的预测。 因此,有必要将更稳健的全局信息合理地融入到现有的预测技术中。
在这里插入图片描述

创新点:

1.提出 一个GLAFF 框架利用以时间戳为代表的全局信息来提高时间序列预测模型的鲁棒预测能力。 GLAFF 是一个即插即用模块,可与任何时间序列预测主干无缝协作。
2.设计了一个**鲁棒非规范化模块,以促进 GLAFF 对数据漂移的适应,**即使观察结果包含异常,同时还设计了一个自适应组合器模块,用于动态融合全局和局部信息。
例子:

GLAFF框架:

在这里插入图片描述

从图可以看出,框架分为数据输入、Mapper层、Robust Denormalizer、Adaptive Combiner(自适应组合器)几个部分,下面仔细说明这几个部分。

数据集输入:

多变量时间序列预测,给定 h 时间步内 c 个通道的历史观测值:
在这里插入图片描述

预测后续 p 个时间步长:
在这里插入图片描述

特征抽取:提取其月、日、周、时、分、秒作为时间戳特征
特征表示例子:2018-06-02 12:00:00 可以表示为
在这里插入图片描述

将历史观测值X==》表示为S,
在这里插入图片描述
将预测的值Y==》表示为T
在这里插入图片描述

Mapper层(基于注意力的映射器)

一个Mapper层包括:
在这里插入图片描述

每个时间戳特征最初由嵌入层标记以描述其属性,通过自注意力应用于相互交互,并由前馈网络单独处理以进行序列表示。 随后,利用投影层来获取初始映射。 利用注意力机制捕获长程依赖和并行计算的能力,基于注意力的映射器可以充分建模时间戳所体现的全局信息。

Embedding层和Projection层都是简单的线性层。
Attention层的结构描述如下:
在这里插入图片描述
其中,LayerNorm(·)表示通常采用的层归一化,FeedForward(·)表示多层前馈网络。MSA(Q,K,V)表示多头自注意机制[34],其中Q、K、V分别用作查询、关键字和值。此外,还引入了dropout机制,以减轻过拟合并增强网络的泛化能力。基于符合标准分布的未来时间戳T获得对应的初始映射˜Y的过程反映了前述过程,简单地将等式1中的S和˜X分别替换为T和˜Y。

Robust Denormalizer(鲁棒反规范化器)

由于现实世界固有的可变性,时间序列观测通常会随着时间的推移而快速演变,这种现象通常称为数据漂移[17],为了解决这种问题,作者在在第二阶段,利用历史窗口内初始映射〜X和实际观测值X之间的分布偏差,Robust Denormalizer分别对初始映射〜X和〜Y进行逆归一化,以产生最终映射X和Y, 减轻数据漂移的影响。

原理:在将原始数据输入深度学习模型之前,通过标准化过程从原始数据中去除动态因素,并在深度学习模型输出后通过逆标准化过程重新引入这些动态因素。

传统的逆归一化过程通常考虑平均值和标准差的分布偏差。 尽管如此,这种方法很容易受到极端值的影响,并且当观察结果包含异常时缺乏稳健性。 我们不依赖均值和标准差,而是分别采用中位数和分位数范围 [6] 来增强鲁棒反规范化器针对异常的鲁棒性。 如图 2 的黄色部分所示,鲁棒反规范化器将初始映射 ~X 和 ~Y 逆规范化为最终映射 ^X 和 ^Y 的过程可以简洁地表示为
在这里插入图片描述

其中,μ ε R1×c 和 μ ε R1×c 分别表示每个通道的初始映射 X 和实际观测值 X 的中值。 类似地,σ ε R1×c 和 σ ε R1×c 表示每个通道的初始映射 ~X 和实际观测值 X 的分位数范围(q 分位数和 1 − q 分位数之间的距离)。 具体来说,当 q = 0.75 时,~σ 和 σ 对应于初始映射~X 和实际观测值 X 的每个通道的四分位数范围 (IQR3)。
IQR 定义为分布或一组值的第一和第三四分位数之间的差异,是分布分布的稳健度量。

Adaptive Combiner(自适应组合器)

解决问题:全局和局部信息的组合权重需要自适应和动态更新,来解决模型偏向的数据偏好将随着在线概念漂移而不断变化的问题。
如图 2 的红色部分所示,自适应组合器最初根据最终映射 ˆX 与实际观测值 X 之间的偏差,动态调整预测窗口内全局映射 ˆY 和局部预测 -Y 的组合权重。 历史窗口。 随后,我们根据组合权重聚合双源信息,得到最终的预测Y。具体来说,自适应组合器的主要计算过程表示为:
在这里插入图片描述

其中W ∈ R1×c×2表示网络根据最终映射ˆX与历史窗口内实际观测值X之间的偏差动态生成的组合权重。
⊕表示基于附加的最后一个维度的串联操作,
P表示在最后一个维度上执行的求和操作。 为简单起见,权重生成网络仅由多层感知器 (MLP) 组成,其中包含隐藏层和用于权重归一化的 Softmax 层。
Y-局部预测的结果,模型采用了Transformer-based Informer (2021) and iTransformer
(2024), the Linear-based DLinear (2023), and the Convolution-based TimesNet (2023).

最终本文的预测Y为本文的预测结果;

数据集:

我们在电力、交易所、交通、天气和ILI等五个领域的九个数据集以及四个ETT数据集上进行了广泛的实验。附录A.1提供了详细的数据集信息。我们遵循标准的分割协议[24,37,45],按照时间顺序将每个数据集严格划分为训练集、验证集和测试集,以确保不会出现信息泄漏问题。每个数据集的分割比例设置为6:2:2。关于预测设置,我们也坚持既定的主流协议[26,38,41]。具体地说,我们将电力、交易所、交通、天气和四个ETT数据集的历史窗口长度设置为96,而预测长度在{96,192,336,720}内变化。对于时间点较少的ILI,历史窗口的长度固定为36,预测长度在{24,36,48,60}内变化。

Backbone :

为了证明框架的有效性,我们选择了几种基于不同架构的主流预测模型,包括基于 Transformer 的 Informer (2021) [45] 和 iTransformer (2024) [24]、基于 Linear 的 DLinear (2023) [ 41],以及基于卷积的 TimesNet (2023) [38]。 值得注意的是,iTransformer 代表了时间序列预测任务中先前最先进的方法。 附录 A.2 提供了有关骨干模型的更多详细信息。 如第 2 节所述,这些主干网包含对先前预测技术中使用的时间戳的三种不同处理,即求和(Informer、TimesNet)、串联(iTransformer)和省略(DLinear)。 实验设置的详细信息参见附录 A.3。 所有实验均基于我们的运行,使用相同的硬件配置,并使用不同的随机种子重复 3 次。
效果图:

在这里插入图片描述
在这里插入图片描述

结论:

在这项工作中,我们的重点在于利用时间戳表示的全局信息来增强现实世界中时间序列预测模型的稳健预测能力。 我们引入了一种名为 GLAFF 的新方法,作为与模型无关的即插即用框架。 在此框架内,时间戳被单独建模以捕获全局依赖性。 通过自适应调整全球和本地信息的组合权重,GLAFF 促进与任何时间序列预测主干的无缝协作。 为了证实我们方法的优越性,我们对广泛使用的基准数据集进行了全面的实验,证明了 GLAFF 为主流预测模型提供的实质性增强。 我们希望GLAFF能够作为时间序列预测的基础组件,并呼吁社区更多地关注时间戳所代表的全局信息。

欢迎添加公众号 时序与量化,获取更多时间序列文章。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值