【论文翻译】KDD 2021 | ST-Norm：多变量时间序列预测的时空归一化

本文链接：https://blog.csdn.net/double_piga/article/details/143302013

论文题目	ST-Norm: Spatial and Temporal Normalization for Multi-variate Time Series Forecasting
作者	Jinliang Deng, Xiusi Chen, Renhe Jiang, Xuan Song, Ivor W. Tsang
机构	澳大利亚人工智能研究所，悉尼科技大学；加州大学洛杉矶分校；东京大学空间信息科学中心等
论文链接	ST-Norm
源码地址	https://github.com/JLDeng/ST-Norm
关键词	时空归一化、时间序列预测、深度学习、Wavenet、Transformer

摘要

多变量时间序列（MTS）数据是现实世界中一种无处不在的数据抽象形式。每个MTS实例都来源于一个具有特定动态但通常未知的混合动力系统。这种动力系统的混合特性是复杂外部影响的结果，从时间视角可以总结为高频和低频影响，从空间视角则可以分为全局和局部影响。这些影响还决定了MTS未来的发展，使其在时间序列预测任务中变得尤为重要。然而，传统方法在从原始数据中剥离每种影响产生的组件方面存在内在的困难。为此，我们提出了两种归一化模块——时间归一化和空间归一化，分别提取了原始数据中的高频分量和局部分量。此外，这两个模块可以轻松地集成到Wavenet和Transformer等经典深度学习架构中。我们在三个数据集上进行了广泛的实验，结果表明，通过增加归一化模块，经典架构在MTS应用中的性能得到了显著提升，并且在与现有MTS模型的比较中达到了最新的结果。

1 引言

时间序列预测在许多工业和商业应用中是一个至关重要的问题。例如，如果公共交通运营商能够预测到某个特定区域在接下来的几个小时内将面临运力不足的问题，他们可以提前分配足够的运力，以减少排队时间。再如，投资者可以借助能够预测潜在市场崩溃的机器人顾问来避免经济损失。由于影响因素的复杂和持续波动，现实世界的时间序列往往表现出非平稳性，即呈现出多样化的动态。例如，公路上的交通量在很大程度上受到道路条件、位置以及当前的时间和天气状况的影响。在零售业中，当前季节、价格和品牌是商品销售的决定因素。多样化的动态给时间序列预测带来了巨大的挑战。在这项工作中，我们将研究多变量时间序列预测，即多个变量随时间共同演变的情况。

传统的时间序列预测算法（如ARIMA和状态空间模型（SSMs））为建模和学习时间序列模式提供了一个有原则的框架。然而，这些算法对时间序列的平稳性有严格的要求，这在实际使用中会受到严重限制，尤其是在大多数影响因素不可用的情况下。随着深度学习技术的最新进展，我们现在能够将复杂动态作为一个整体进行处理，即使在没有额外的影响因素支持的情况下也能处理。常见的应用于时间序列数据的神经网络架构包括循环神经网络（RNN）、长短期记忆网络（LSTM）、Transformer、Wavenet和时间卷积网络（TCN）。

1.1 初步分析

关于MTS预测的现有研究成果非常丰富。然而，很少有研究精确识别出此类问题的关键瓶颈。在正式提出我们的解决方案之前，我们首先系统性地分析了问题，以获得更深入的见解。在现实环境中，我们将施加在MTS上的影响按其在空间和时间维度上的激活范围粗略分类为四类。这四类分别是低频局部影响、低频全局影响、高频局部影响和高频全局影响。在这里，“低频”或“高频”描述了影响在时间视角中的激活范围，而“全局”或“局部”则描述了其在空间视角中的激活范围。特别地，“低频”表示影响变化平稳，或换句话说，倾向于在相对较长时间内保持稳定；“高频”表示影响剧烈波动；“全局”表示影响对所有时间序列施加相似的作用；“局部”表示影响仅作用于单个时间序列，或对不同时间序列产生不同的作用。尽管在时间或空间维度上的激活范围位于连续光谱上，但我们认为仅考虑这四种极端情况足以揭示MTS的本质。

时间序列的任何测量值都是与这四类影响相关的四个分量的混合，可以如下公式表示：

$X_{i,t} = X^{lh}_{i,t} X^{ll}_{i,t} X^{gh}_t X^{gl}_t + const,$

其中， $X_{i,t} \in \mathbb{R}$ 表示时间 $t$ 上第 $i$ 个时间序列的测量值， $X^{lh}_{i,t} \in \mathbb{R}$ 表示局部高频分量， $X^{ll}_{i,t} \in \mathbb{R}$ 表示局部低频分量， $X^{gh}_t \in \mathbb{R}$ 表示全局高频分量， $X^{gl}_t \in \mathbb{R}$ 表示全局低频分量。

为了更深入理解这种分解形式，以下真实世界的例子用于展示。我们展示的时间序列数据是纽约市三个特定区域共享单车需求的变化。在这个例子中，时间作为一个全局高频影响；区域特征（包括人口和功能）作为一个局部低频影响；星期几则作为一个全局低频影响。局部高频影响难以从原始数据中区分，例如交通事故或拥堵。

时间序列预测主要基于其最近的动态，该动态由连续的测量值组成。形式上，动态表示为向量 $\left[X_{i,t}, X_{i,t-1}, \cdots, X_{i,t-\delta+1}\right]^\top$ ，其中 $\delta$ 为跨度时间。然而，常见的用于时间序列预测任务的深度学习架构（如LSTM、Transformer和Wavenet）仅捕捉该向量的方向信息，这是一种特殊的时间关系类型，导致一些信息成分被舍弃。

为了获得模型化的时间关系的特定形式，我们假设两个大多数现实问题中成立的前提：（1）低频分量（包括全局和局部的低频分量）在给定时间段内是稳定的；（2）全局高频分量远大于局部高频分量。基于公式（1）的分解以及这两个假设，自然可以推导出从其恒定起点的基点出发的向量方向，其中历史时间 $t_0$ 的条目计算如下：

$\frac{X_{i,t_0}}{\sqrt{\sum_{t'=0}^{\delta-1} (X_{i,t-t'})^2}} = \frac{X^{lh}_{i,t_0} X^{ll}_{i,t_0} X^{gh}_{t_0} X^{gl}_{t_0}}{\sqrt{\sum_{t'=0}^{\delta-1} (X^{lh}_{i,t-t'} X^{ll}_{i,t-t'} X^{gh}_{t-t'} X^{gl}_{t-t'})^2}} \approx \frac{X^{gh}_{i,t_0}}{\sqrt{\sum_{t'=0}^{\delta-1} (X^{gh}_{i,t-t'})^2}},$

为简洁起见，省略了每个量的符号，因为它们不会影响我们的结论。我们注意到，获得的方向向量仅包含全局高频分量，完全舍弃了全局低频分量及其局部低频和局部高频对应部分。

舍弃其他三个分量导致空间不可区分性和时间不可区分性。空间不可区分性表示不同变量产生的动态不能充分辨别，而时间不可区分性表示在特定时间测量的动态不能实质性地分离。例如，查看图1中的三个区域，我们考虑它们在不同天的晚上8点到9点之间的动态，这些时间段共享相同的全局高频元素。

在图2a中，我们绘制了三个区域晚上8点和9点的测量值，其中数据点根据区域特征着色。因此，具有相同颜色的动态簇共享相同的局部低频分量。在图2b中，我们仅绘制区域A的测量对，并根据工作日或周末进行区分。此时，相同颜色的动态簇共享相同的全局低频分量。不同的动态簇应当是可区分的，因为它们的局部低频分量或全局低频分量是不同的。然而，簇间关系（由拟合簇内数据点的直线方向表示）高度相关，这意味着要么是空间不可区分性，要么是时间不可区分性。

这种不可区分性阻碍了深度神经网络感知空间和时间差异。需要注意的是，一旦模型调整了对某个动态簇独有的参数分量，其他簇的预测将会相应退化，从而抵消了当前更新。这使得当前更新容易被后续更新抵消，因为该临时状态甚至在局部也不是最优的。因此，最终模型主要捕捉这些簇的平均特性，这些特性源于共同的全局高频分量。该结果也完全符合我们在公式（2）中的推导。

1.2 贡献

为了解决上述问题，关键在于从原始测量数据中提炼出更多类型的分量，从而能够捕捉从空间视角或时间视角区分动态的关系。

在我们的工作中，我们提出了两种归一化模块——时间归一化（TN）和空间归一化（SN），分别提取高频分量和局部分量。

具体来说，高频分量有助于从空间视角区分动态，而局部分量有助于从时间视角区分动态。 通过在空间和时间上的区分能力，模型能够专门适配每个样本簇，特别是某些长尾样本。

此外，我们展示了我们的方法与依赖于相互关系建立来区分动态的其他最先进方法（SOTA）之间的联系。

我们的方法具有两个显著优势，除了更高的预测精度：
（1）计算成本保持在 $O (NT)$ ，而不是上升到 $O(N^2 T)$ ；
（2）收敛速度更快，这在实验中得到了证明。

2 相关工作

2.1 时间序列预测

时间序列预测的研究已经持续了几十年。
传统方法，如ARIMA，仅能学习不同时间步之间的线性关系，这在拟合许多高度非线性的现实世界时间序列数据时具有固有的缺陷。随着深度学习模型的强大能力，最近在该领域出现了许多取得显著成果的工作。例如，Qin等人采用LSTM来捕捉时间序列数据的非线性动态和长期依赖。然而，正如Zhao等人指出的那样，LSTM的记忆能力仍然有限。为了解决这个问题，Tang等人创建了一个外部记忆，用于显式存储历史中频繁出现的某些代表性模式，从而能够在相似模式出现时有效地指导预测。Lai等人利用跳跃连接使远处历史信息的传递成为可能。注意力机制是另一种应对记忆消失问题的选择。在这些方法中，Transformer是一种代表性架构，仅由注意力操作组成。为了克服标准Transformer的计算瓶颈，Li等人提出了一种在执行注意力时定期跳过某些时间步的新机制。据我们所知，Wavenet和TCN目前是处理长期时间序列数据的最佳选择。
为了应对MTS，一些研究假设多变量时间序列数据具有低秩结构。另一类工作利用注意力机制学习各时间序列间的相关性。最近，Wu等人从每个变量的自学习编码中推断出变量的固有结构。上述方法进行点估计。Rangapuram等人、Salinas等人提出了提供包含未来观察值的置信区间的建议。

2.2 归一化

归一化首先在深度图像处理中被采用，并在几乎所有任务中极大地提升了深度学习模型的性能。存在多种归一化方法，如批归一化、实例归一化和组归一化，每种方法都用于应对特定的计算机视觉任务。其中，实例归一化因其在去除图像风格信息方面的能力而在我们的研究中最具潜力。研究者们发现特征统计可以捕捉图像的风格，而在归一化后，剩余特征负责图像的内容。这种可分离的属性使得图像的内容可以在另一张图像的风格中呈现，这也被称为风格迁移。图像中的风格信息类似于时间序列中的尺度信息。此外，还有另一类研究探索了归一化技巧如何促进深度神经网络学习的原因。它们的一个主要发现是归一化可以增加特征空间的秩换言之，它能够使模型提取出更为多样的特征。

3 预备知识

在本节中，我们介绍定义和假设。所有常用符号在表1中列出。

定义 1（时间序列预测）。时间序列预测被定义为以下条件分布：
$\prod_{t=1}^{T_{out}} P(Y_{:,t}|X),$

定义 2（时间序列分解）。时间序列分解将公式（1）推广到潜在空间，形式如下：
$Z_{i,t} = Z^{lh}_{i,t} Z^{ll}_{i,t} Z^{gh}_t Z^{gl}_t,$

其中：

$Z^{lh}_{i,t} \overset{\text{i.i.d.}}{=} Z^{lh}_{i,t-1}, \quad Z^{ll}_{i,t} \approx Z^{ll}_{i,t-1}, \quad Z^{gh}_t \overset{\text{i.i.d.}}{=} Z^{gh}_{t-1}, \quad Z^{gl}_t \approx Z^{gl}_{t-1}, \quad Z^{l^*}_{i,t} \overset{\text{i.i.d.}}{=} Z^{l^*}_{j,t}.$

假设 1。 $Z^{ll}_{i,t}$ 、 $Z^{lh}_{i,t}$ 、 $Z^{gh}_t$ 和 $Z^{gl}_t$ 的元素集相互独立，形式化表示如下：
$P(Z^{ll}_{i,t}, Z^{lh}_{i,t}, Z^{gh}_t , Z^{gl}_t) = \prod_{k=1}^{d_z} P(Z^{ll}_{i,t,k}) P(Z^{lh}_{i,t,k}) P(Z^{gh}_{t,k}) P(Z^{gl}_{t,k}).$

4 方法

我们展示了本研究中所使用架构的概述，如图3所示。某些关键变量及其形状在计算路径中的相应位置被标记出来。总体上，我们的框架遵循与Wavenet类似的结构，不同之处在于我们添加了空间归一化和时间归一化模块，合称为ST-Norm或STN。

4.1 膨胀因果卷积

在本节中，我们简要介绍了膨胀因果卷积，其滤波器在应用时跳过了一些值。对于一个一维信号 $\in \mathbb{R}^T$ 和一个滤波器 $\{0, \dots, k - 1\} \rightarrow \mathbb{R}$ ，在元素 $t$ 上的因果卷积定义如下：

$\sum_{i=0}^{k-1} f(i) \cdot z_{t-i}.$

该公式可以容易地推广到多维信号，但为简洁起见，我们省略了其一般形式。此外，大小为 $k - 1$ 的填充（零填充或复制）被添加到左侧尾部，以确保长度一致性。我们可以堆叠多个因果卷积层，以获得更大的感受野。

使用因果卷积的一个缺点是，核大小或层数与感受野的范围呈线性关系，而这种线性关系在处理长时间历史时会导致参数的爆炸。池化是解决此问题的自然选择，但它牺牲了信号中顺序信息的呈现。为此，我们利用了膨胀因果卷积，这种形式支持感受野的指数扩展。其计算过程为：

$*_{d} f)(t) = \sum_{i=0}^{k-1} f(i) \cdot z_{t-d \cdot i},$

其中 $d$ 是膨胀因子。通常， $d$ 随着网络深度指数增加（即网络第 $l$ 层的 $d = 2^l$ ）。如果 $d$ 为 1（即 $2^0$ ），则膨胀卷积操作 $_{d}$ 退化为常规卷积操作 $*$ 。

4.2 时间归一化

时间归一化（TN）旨在从混合信号中提炼出高频分量——包括全局和局部的高频分量。为简洁起见，我们引入了两个符号，分别总结高频分量和低频分量，表示如下：

$Z^{\text{high}}_{i,t} = Z^{\text{lh}}_{i,t} Z^{\text{gh}}_{t}, \quad Z^{\text{low}}_{i,t} = Z^{\text{ll}}_{i,t} Z^{\text{gl}}_{t}.$

TN的适用性基于一个合理假设，即低频分量的变化速率远慢于高频分量的变化速率。更技术性地说，每个低频分量在一段时间内近似于一个常数。在此假设下，我们可以在不额外补充表征频率特征的情况下，将TN应用于时间序列。这一特性非常适合于大量现实问题，在这些问题中，特定频率不可用。

我们从展开 $Z^{\text{high}}_{i,t}$ 开始，以从数据中导出一个期望的形式，具体如下：

其中 $\epsilon$ 是一个小常数，用于保持数值稳定性； $Z_{i,t}$ 是可观测的； $Z^{\text{high}}_{i,t | i}$ 和 $(\pm) \sigma Z^{\text{high}}_{i,t | i}$ 分别是 $i$ 时序随时间的高频影响的均值和标准差（正负号分别表示增加或减少），可以通过一对大小为 $d_z$ 的可学习向量 $\gamma^{\text{high}}_i$ 和 $\beta^{\text{high}}_i$ 来逼近。为了估计 $Z_{i,t | Z^{\text{low}}_{i,t, i}}$ 和 $\sigma Z_{i,t | Z^{\text{low}}_{i,t, i}}$ ，可以根据定义2和假设1进行如下估计：

其中 $\delta$ 是一个周期，在此期间低频分量近似保持不变。在我们的工作中，为简单起见，我们将 $\delta$ 设为输入时间步的数量。通过将这四个不可观测变量的估计值代入公式（7），我们可以得到高频分量的表示：

值得注意的是，TN与图像数据的实例归一化（IN）密切相关，其中风格充当低频分量的角色，而内容充当高频分量的角色。我们的工作的创新之处在于，在MTS的背景下追溯TN的来源，并从其本源逐步推导出TN。

4.3 空间归一化

空间归一化（SN）的目标是优化局部分量，由局部高频分量和局部低频分量组成。为达到这一目标，首要任务是消除全球成分，例如时间、星期几和天气状况等全球性影响。我们还引入了两个符号来概括局部和全球成分：

$Z^{\text{global}}_t = Z^{\text{gh}}_t Z^{\text{gl}}_t, \quad Z^{\text{local}}_{i,t} = Z^{\text{lh}}_{i,t} Z^{\text{ll}}_{i,t}.$

同样，SN的适用性基于这样一个假设，即全球影响对所有时间序列产生类似的作用。例如，在图1中，三个区域在早上8点到9点之间具有相似的上升趋势。因此，我们不要求全球影响严格地对每个时间序列产生相同的作用。那些在每个时间序列上观察到的不均匀效果可以通过定义的局部成分进行补充。

我们首先将 $Z^{\text{local}}_{i,t}$ 展开为一个表达式，其中每项都可以从数据中逼近或分配有可学习的参数：

其中， $Z_{i,t}$ 是直接可观测的； $(\pm) \sigma \left( Z^{\text{local}}_{i,t} \middle| t \right)$ 和 $\left( Z^{\text{local}}_{i,t} \middle| t \right)$ 通过两个可学习向量 $\gamma^{\text{local}}$ 和 $\beta^{\text{local}}$ 来近似； $\left( Z_{i,t} \middle| Z^{\text{global}}_t , t \right)$ 和 $\sigma \left( Z_{i,t} \middle| Z^{\text{global}}_t , t \right)$ 的估计可以根据定义2和假设1从数据中获得：

通过将这四个不可观测变量的估计值代入公式（11)，我们能够得到局部分量的组合表示：

SN 是空间域中 TN 的对应项，其中高频分量作为局部分量，低频分量对应于全局分量。通过从原始信号中提取局部或高频分量，模型能够捕捉细粒度的变化，这在时间序列预测中具有重要作用。

4.4 预测与学习

我们令 $Z^{(L)} \in \mathbb{R}^{N \times T_{\text{in}} \times d_z}$ 表示最后一个残差块的输出，其中每一行 $z^{(L)} \in \mathbb{R}^{T_{\text{in}} \times d_z}$ 代表一个变量。然后，我们使用一个时间池化块对每个变量进行时间聚合。可以应用多种池化操作，如最大池化和平均池化，具体取决于所研究的问题。在我们的案例中，我们选择最近时间槽中的向量作为池化结果，并将其视为整个信号的表示。最后，基于获得的表示，通过共享的全连接层对每个变量分别进行预测。

在学习阶段，我们的目标是最小化预测值与真实值之间的均方误差。此外，我们使用Adam优化器来优化此目标。

4.5 讨论

为了说明TN和SN如何重构特征空间，我们将它们应用于原始输入数据，并检查它们是否缓解了图2中提出的问题。我们绘制了原始量与时间归一化量（图5a）以及原始量与空间归一化量（图5b）的关系。显然，原始量与时间归一化量之间的成对关系区分了不同的区域，而原始量与空间归一化量之间的成对关系区分了不同的日期。

一些最新的方法提出建立不同时间序列之间的相互关系，以优化局部成分。它们本质上是对具有相同全球成分的时间序列对进行对比，从而突显出个体时间序列的局部成分。例如，我们将图1中的三个时间序列与一个单一时间序列（视为锚点）进行对比，结果产生了反映每个时间序列标识的成对关系（如图5c所示）。然而，合适的锚点通常未知，不同的时间序列可能需要与不同的锚点配对。为了自动识别每个时间序列的锚点，这些方法使用图学习模块来探索每一对时间序列的所有可能对。它们的计算复杂度为 $O(TN^2)$ 。与该领域提出的其他方法不同，我们的方法中涉及的归一化模块仅需要 $O (TN)$ 的计算。

5 评估

在本节中，我们在三个常用数据集上进行了广泛的实验，以从不同方面验证ST-Norm的有效性。

5.1 实验设置

5.1.1 数据集 我们在三个真实世界数据集上验证我们的模型，包括BikeNYC、PeMSD7和Electricity。每个数据集的统计信息以及指定任务的相应设置在表6中报告。更多细节见附录A.1。我们标准化每个数据集中的值以便于训练，并在测试阶段将它们转换回原始尺度。

5.1.2 网络设置 我们在SN和TN之外并行添加一个实例归一化（IN）模块作为另一个补充。批大小为4，批样本的输入长度为16。对于Wavenet骨干网络，层数设置为4，每个DCC组件的核大小为2，相关的膨胀率为 $2^i$ ，其中 $i$ 为层的索引（从0开始计数）。这些设置共同使得Wavenet的输出可以感知16个输入步长。每个DCC中的隐藏通道数 $d_z$ 为16。我们在输入的左侧添加零填充，以使DCC的输出长度也等于16。Adam优化器的学习率为0.0001。

5.1.3 评估指标 我们使用均方根误差（RMSE）、平均绝对误差（MAE）和平均绝对百分比误差（MAPE）来验证我们的模型。我们对每个数据集上的每个模型重复实验十次，并报告结果的平均值。

5.2 基线模型

MTGNN：MTGNN通过引入图学习模块来构建变量间关系。具体来说，该图学习模块在定义的度量空间中将每个中心节点连接到其最近的 $k$ 个邻居节点。MTGNN用于时间建模的主干架构是Wavenet。
Graph Wavenet：Graph Wavenet的架构与MTGNN类似，主要区别在于前者使用软图，每对节点都有一定的连接概率。
AGCRN：AGCRN同样配备了图学习模块以建立变量间关系。此外，它使用个性化的RNN来建模每个时间序列的时间关系。
Transformer：该模型通过注意力机制捕获时间序列数据中的长期依赖关系，键值查询通过局部上下文的因果卷积生成，以建模片段级的相关性。
LSTNet：LSTNet包含两个组件：一个传统的自回归模型，另一个是带有时间维度跳跃连接的LSTM。
TCN：TCN的架构类似于Wavenet，不同的是每个残差块中的非线性变换由两个ReLU组成。

我们还测试了包含STN的TCN和Transformer的性能，其中STN同样应用在每层的因果卷积操作之前。

5.3 实验结果

实验结果在BikeNYC、PeMSD7和Electricity数据集上分别报告于表2、表3和表4中。Wavenet + STN在每个表的最后一行记录了相对于最佳基线的改进情况。

显然，Wavenet + STN在BikeNYC、PeMSD7和Electricity数据的几乎所有预测区间上都达到了SOTA结果。其原因在于我们从时间视角和空间视角细化了高频分量，这通常是基线模型忽视的。接下来，我们揭示了Wavenet + STN在Electricity数据集上相对于MAPE在第一个预测区间表现不佳的原因。正如图9b所示，Electricity数据呈现长尾分布——存在一些较高水平的量值。回想一下，优化目标最小化均方误差，这意味着在大误差上赋予更高权重。此外，每个样本在全局统计估计中被等量处理。因此，模型能够更好地适应长尾样本，但代价是对正常样本的适应性下降。

我们还在附录A.2中展示了损失收敛过程。结果表明，随着额外STN模块的加入，模型的收敛速度大大加快，甚至比几乎所有的基线模型更快。

5.4 消融实验

为了验证SN和TN的有效性，我们设计了以下几种变体。此外，我们还研究了图学习模块是否可以补充STN，并测试包含两者的变体。由于所有变体都包含标准的Wavenet骨干网络，名称中省略了Wavenet以简化表述。

GSTN：包含自适应图学习模块的STN，与Graph Wavenet相同。
Graph：Graph Wavenet。
SN：包含SN模块的Wavenet。
TN：包含TN模块的Wavenet。

我们在三个数据集上对这些变体进行了评估，并在表5中报告了总体结果。显然，SN和TN都对增强性能有贡献。此外，通过加入自适应图学习模块，STN的性能略有提升。我们可以得出结论，STN在很大程度上可以替代并超越图学习模块。

5.5 超参数分析

我们进一步研究了在所提出的模块中，不同超参数设置的效果。有四个超参数需要由实践者手动设置，包括隐藏通道的维度 $d_z$ 、输入模型的历史步数、DCC的卷积核大小以及批次大小。研究结果如图6所示，从中我们可以得出一个主要结论：STN不仅提升了性能，还增强了不同超参数设置下性能的稳定性。

5.6 案例研究

我们使用BikeNYC的数据集作为案例研究。对于SN和TN，我们在指定的时间点各选取三个具有代表性的区域，以反映模块从数据中提取的内容。我们收集了两个归一化模块在顶层残差块中的中间表示，并通过t-SNE进行压缩以便于可视化。作为对比，我们还检查了相关的输入表示，每个表示由原始测量值的串联构成。接下来，我们将分别讨论两个模块的结果。

5.6.1 空间归一化

SN从原始测量值中移除了全局成分 $Z^{\text{global}}_t$ ，而保留了局部成分 $Z^{\text{local}}_{i,t}$ 。在图7a中，我们展示了三个区域在指定期间的需求变化。可以观察到，三个区域具有类似的演化模式，尤其是区域B和C。原始测量值串联的表示在图7b中绘制，SN的中间表示在图7c中绘制。我们可以观察到，SN完全按照区域身份重新排列了表示。这一观察表明，局部成分中的低频部分在属于同一区域的组内大致不变。这与我们对某些区域属性的理解一致，例如人口和功能性在时间上相对稳定。

5.6.2 时间归一化

TN试图消除低频成分 $Z^{\text{low}}_{i,t}$ ，同时突出高频成分 $Z^{\text{high}}_{i,t}$ 。为了反映TN表示的特征，我们选择了另一个区域D，如图8a所示。显著的是，区域D的需求量远小于区域A或B。我们在一天内选取了三个不同的时间点，包括凌晨1点、早上8点和中午12点。原始输入表示在图8b中绘制，中间表示在图8c中绘制。如图8b所示，属于区域D的实例在不同时间点之间混杂在一起，表明模型将难以区分这些实例发生的时间点。相比之下，TN通过形成具有相同发生时间的实例簇缓解了此问题。

6 结论

在本研究中，我们引入了一种新的方法来分解MTS数据。通过因子分解，我们提出了时间归一化和空间归一化，这分别从MTS数据中提炼出高频分量和局部分量。实验结果显示了这两个模块的有效性和高效性。

A 附录

A.1 数据

表6展示了数据集的统计信息。以下是有关数据集的更多细节介绍。

PeMSD7：该数据集由加州交通管理系统（PeMS）的传感器站点收集，这些站点部署在加利福尼亚州高速公路系统的主要大都市区域，用于监控交通速度。我们进一步将数据汇总为30分钟的间隔，采用平均池化。
Electricity：原始数据集包含370个点/客户的用电量数据，其中包含极值的34个点被移除。此外，我们计算每个点的每小时平均用电量，并将其作为时间序列进行建模。
BikeNYC：该数据集中每个时间序列表示纽约市某一地区的共享单车需求总量。由于我们的目标是研究时间模式，因此未考虑PeMSD7和BikeNYC数据中的空间关系。