TimeMixer 可分解多尺度融合的时间序列预测 | ICLR2024 论文笔记

特别闹

已于 2025-02-18 11:52:00 修改

阅读量908

点赞数 21

文章标签：论文阅读人工智能深度学习神经网络数据分析

于 2025-02-18 11:10:36 首次发布

本文链接：https://blog.csdn.net/u013611278/article/details/143512937

版权

（MLP类模型）

论文链接：TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting | OpenReview

代码地址：GitHub - kwuking/TimeMixer: [ICLR 2024] Official implementation of "TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting"

总的来说

整个文章的idea是，对一个原始的时间序列，用不同的频率来采样它，得到的新的序列所蕴含的时域信息是不同的。比如用电量序列，如果以每小时采样，那它就呈现以天为周期的形式；如果以每天采样，那它就可能呈现以周末、节假日相关的波动。因此利用不同尺度的序列之间的关系，也就是用不同频率采样得到的序列之间的关系，对时序预测任务很重要。

本文是每个block内部都会处理所有尺度序列，此外，还引入了序列分解的思想和尺度间信息流动的新方式。

摘要

时间序列预测在交通规划和天气预报等领域有着广泛的应用。然而，现实世界的时间序列通常呈现出复杂的时间变化，这使得预测极具挑战性。超越了平面分解和多周期分析的主流范式，作者以一种新的多尺度混合视角分析了时间变化，即时间序列在不同的采样尺度上呈现出不同的模式。微观和宏观信息分别反映在细尺度和粗尺度上，从而可以内在地解开复杂的变化。基于这一观察，作者提出TimeMixer作为一种完全基于MLP的架构，具有过去可分解混合（PDM）和未来多预测混合（FMM）块，以充分利用过去提取和未来预测阶段的解纠缠多尺度序列。

具体而言，PDM将分解应用于多尺度序列，并进一步将分解的季节和趋势分量分别在细到粗和粗到细的方向上混合，从而依次聚合微观季节和宏观趋势信息。FMM进一步整合了多个预测器，以在多尺度观测中利用互补的预测能力。因此，TimeMixer能够在长期和短期预测任务中实现一致的最先进性能，并具有良好的运行效率。

Introduction

大多数现有模型未能充分利用时间序列的多尺度特性。

超越上述设计，作者进一步观察到时间序列在不同采样尺度下呈现出不同的时间变化，这些观察自然需要一种多尺度分析范式来解开复杂的时间变化，其中精细和粗略尺度可以分别反映微观和宏观信息。特别是对于时间序列预测任务，值得注意的是，未来的变化是由多个尺度的变化共同决定的。

因此，在本文中，作者试图从多尺度混合的新视角设计预测模型，该模型能够同时利用多尺度序列的解纠缠变化和互补预测能力。

本文提出的 TimeMixer 不仅引入了多尺度混合，还采用了过去信息提取的 PDM 和未来预测的 FMM 模块，成功结合了多尺度时间序列的预测能力。TimeMixer通过过去的可分解混合（PDM）块从过去的变化中提取基本信息，然后通过未来的多预测混合（FMM）块预测未来的序列。具体来说，TimeMixer首先通过平均下采样生成多尺度观测值。接下来，PDM采用了一种可分解的设计，通过分别在细到粗和粗到细的方向上混合分解的多尺度季节和趋势分量，更好地应对季节和趋势变化的不同特性。通过这种设计，PDM能够成功地从最精细的系列中聚合详细的季节信息，并深入到宏观趋势成分以及较粗尺度的知识中。在预测阶段，FMM集成了多个预测器，以利用多尺度观测的互补预测能力。

创新点：

1.超越了以前的方法，从多尺度混合的新角度解决了序列预测中复杂的时间变化，同时利用了多尺度序列的解纠缠变化和互补预测能力。

2.提出TimeMixer作为一种简单但有效的预测模型，它能够在历史提取和未来预测阶段结合多尺度信息，这得益于量身定制的可分解和多预测器混合技术。

3.TimeMixer在长期和短期预测任务中都实现了一致的最新性能，在各种基准测试中都具有卓越的效率。

TimeMixer

给定一个具有一个或多个观测变量的序列 $x$ ，时间序列预测的主要目标是利用过去的观测值（长度- $P$ ）来获得最可能的未来预测（长度- $F$ ）。文中提出了多尺度混合的TimeMixer，受益于多尺度序列的解纠缠变化和互补预测能力。从技术上讲，TimeMixer由一个多尺度混合架构组成，该架构具有过去可分解混合和未来多预测混合，分别用于过去信息提取和未来预测。

PDM负责提取过去的信息并将不同尺度上的季节性和趋势组分分别混合。
FMM通过集成多个预测器（主要是）的方式来提高未来序列的预测准确性，每个预测器都基于不同尺度上的信息进行预测。

1.多尺度混合架构 (Multiscale Mixing Architecture)

Multiscale Time Series

不同尺度的时间序列自然表现出不同的性质，其中细尺度主要描绘详细的模式，粗尺度突出宏观变化。 TimeMixer首先通过对过去的观测数据 $x\in\mathbb{R}^{P\times C}$ 进行平均池化降采样，生成多尺度时间序列集合 $\mathcal{X}=\{x_0,\ldots,x_M\}$ 。这些序列集合从最细粒度的输入序列到最粗粒度的宏观序列，形成了一个多尺度的表示。其中， $\mathbf{x}_m\in\mathbb{R}^{\lfloor\frac P{2^m}\rfloor\times C}$ ， $m\in\{0,\ldots,M\}$ ， $C$ 表示变量的数量，最低级别的序列 $x_0=x$ 是输入序列，包含最精细的时间变化，而最高级别的序列 $x_M$ 代表宏观变化。

然后将这些多尺度序列投射到嵌入层得到深层特征 $\mathcal{X}^{(0)}$ ，即 $\mathcal{X}^{(0)}=\text {Embed}(\mathcal{X})$ 。

通过上述设计，得到了输入序列的多尺度表示。

Past Decomposable Mixing（PDM）

随后利用堆叠的过去可分解混合（PDM）块来混合不同尺度的过去信息。对于第 $L$ 层，输入是 $\mathcal{X}^{l-1}$ 并且 PDM 的过程可以公式化为：

$\mathcal{X}^l=\mathrm{PDM}(\mathcal{X}^{l-1}),\quad l\in\{0,\ldots,L\},$

其中L是总层数， $\mathcal{X}^l=\{x_0^l,\ldots,x_M^l\}$ ， $x_m^l\in\mathbb{R}^{{\frac P{2^m}}\times d_{\mathrm{model}}}$ 表示混合过去的表示，有 $d_{\text{model}}$ 通道。

Future Multipredictor Mixing（FMM）

对于未来预测阶段，我们采用未来多预测混合（FMM）块来集成提取的多尺度过去信息 $\mathcal{X}^L$ 并生成未来预测 $\widehat{x}$

$\widehat{x}=\mathrm{FMM}(X^L),$

2.过去可分解混合 (Past-Decomposable-Mixing, PDM)

对于过去的观测，由于现实世界序列的复杂性，即使是最粗尺度的序列也存在混合变化。如图1所示，顶层的序列仍然同时呈现出明显的季节性和趋势性。值得注意的是，在时间序列分析中，季节和趋势分量具有不同的性质（Cleveland等人，1990），分别对应于短期和长期变化或平稳和非平稳动态。因此，作者提出了过去可分解混合（PDM）块，而不是将多尺度序列直接混合为一个整体，将分解的季节和趋势分量分别混合在多个尺度上。

PDM的分解模块把每个尺度的序列都分解为趋势项（trend）和周期项（seasonal）。

PDM模块通过两个方向的混合操作来聚合跨尺度的信息：自底向上的季节性混合 (Bottom-Up Seasonal Mixing)和自顶向下的趋势混合 (Top-Down Trend Mixing)。

自底向上的季节性混合 (Bottom-Up Seasonal Mixing)：采用自底向上的方法，将细粒度时间序列中的详细信息逐步整合到更粗粒度的时间序列中，补充季节性建模所需的细节信息。
自顶向下的趋势混合 (Top-Down Trend Mixing)：与季节性混合相反，趋势混合采用自顶向下的方法，利用粗粒度时间序列中的宏观信息来指导细粒度时间序列的趋势建模，因为粗粒度序列更容易提供清晰的宏观趋势信息。

对于第 $l$ 个PDM块，多尺度时间序列 $\mathcal{X}^l$ 分解为季节性部分 $s^{l}=s_{0}^{l},\ldots,s_{M}^{l}$ 和趋势部分 $t^l=t_0^l,\ldots,t_M^l$

对于周期项：下面细粒度的seasonal序列用一个两层的MLP映射到和上面粗粒度的seasonal序列尺度对齐，然后相加即可得到融合后的结果，然后依此类推，把所有尺度的seasonal全部融合一遍。

在季节性分析中，较大的时段可以被视为较小时段的聚合，例如由七个每日变化形成的每周交通流量时段，这解决了详细信息在预测未来季节变化中的重要性。因此，在季节混合中，我们采用自下而上的方法将来自较低层次精细尺度时间序列的信息向上整合，这可以为较粗尺度的季节性建模补充详细信息。

使用自底向上混合层在第 m 个尺度上以残差方式实现季节性信息的自底向上交互

对于m： $1\rightarrow M$ 做 $\mathrm{s}_{m}^{l}=\mathrm{s}_{m}^{l}+\text{Bottom-Up-Mixing}(\mathrm{s}_{m-1}^{l})$ ，其中 $Bottom-Up-Mixing(\cdot)$ 被实例化为带有中间GELU激活函数的两个线性层，沿着时间维度，其输入维度是 $\left \lceil \frac{P}{2^m} \right \rceil$ ，输出维度是 $\left\lfloor\frac{P}{2^m}\right\rfloor$

对于趋势项：其实是和周期项一样的处理方式，唯一的区别是方向是反的，是粗粒度逐渐映射到细粒度的。

与季节性部分相反，对于趋势项目，详细的变化可能会在捕捉宏观趋势时引入噪声。请注意，与较低级别相比，较高的粗尺度时间序列可以很容易地提供清晰的宏观信息。因此，我们采用自上而下的混合方法，利用粗尺度的宏观知识来指导细尺度的趋势建模。

技术上，对于多尺度趋势组件 $T^l = \{ t_0^l, \ldots, t_M^l \}$ 我们采用自上而下的混合层在第 $m$ 个尺度上以残差方式实现自上而下的趋势信息交互：

对于 $(M - 1) \rightarrow 0$ 做： $t_m^l = t_m^l + Top-Down-Mixing(t_{m+1}^l)$

其中 $Top-Down-Mixing(\cdot)$ 被实例化为带有中间GELU激活函数的两个线性层，沿着时间维度，其输入维度是 $\left \lceil \frac{P}{2^m+1} \right \rceil$ ，输出维度是 $\left\lfloor\frac{P}{2^m}\right\rfloor$

PDM模块通过这种新颖的设计，能够成功地从最细粒度的季节性信息开始聚合，并随着从更粗粒度尺度获得的知识深入到宏观趋势信息中，最终实现过去信息的多尺度混合。

3.未来多预测器混合 (Future-Multipredictor-Mixing, FMM)

由于不同尺度下的序列呈现出不同的主导变化，因此它们的预测也呈现了不同的能力。FMM模块的关键在于集成多个预测器，利用不同尺度序列的互补预测能力。

具体来说，FMM模块首先从每个尺度的时间序列中提取特征，然后每个尺度的预测器独立地对相应尺度的时间序列进行预测。这些预测器的输出随后被集成起来，形成最终的预测结果。这种集成方法允许模型整合来自不同尺度的预测，从而提高预测的准确性和鲁棒性。

用多个predictor，对每个尺度的序列都映射到和预测范围的长度一致，然后所有尺度的预测结果相加即可得到最终的预测。每个predictor其实就是一个Linear，如下图所示，和Dlinear论文中一样：

$\hat{x}^m=Predictor_m(\mathcal{X}m^L),m\in\{0,\ldots,M\},\hat{x}=\sum{m=0}^M\hat{x}_m,$

其中 $\hat{x}_m \in \mathbb{R}^{F \times C}$ 代表从第 $m$ 尺度序列中的未来预测，最终输出是 $\hat{x} \in \mathbb{R}^{F \times C}$ 。 $Predictor_m(\cdot)$ 指的是第m尺度序列的预测器，首先采用单层线性层直接对长度为F的未来进行回归，从长度为 $\lceil \frac{P}{2^m} \rceil$ 的过去信息中提取，然后将深层表示投影到 $C$ 个变量上。注意FMM是一个集合体，不同的预测器基于来自不同尺度的过去信息，使得FMM能够整合混合多尺度序列的补充预测能力。

实验

咕咕咕……待更新

参考资料

论文精读 | 2024 [ICLR] TimeMixer: 可分解多尺度融合的时间序列预测_timemixer: decomposable multiscale mixing for time-CSDN博客

论文精读 | 2024[ICLR]TimeMixer: 可分解多尺度融合的时间序列预测 - 知乎

TimeMixer论文解析-CSDN博客