1. 从图像到时间序列的隐喻
在计算机视觉领域,“Patch”指图像中被切割的小块区域(例如将一张图片划分为16×16像素的局部片段)。Transformer模型(如ViT)通过分析这些Patch间的全局关系,成功捕捉了图像的语义信息。这种分块思想启发了时序领域的研究者——能否将连续的时间序列拆解为局部片段(Patch),并通过学习片段间的模式实现更高效的预测?
2. 传统时序建模的瓶颈
传统方法如滑动窗口(Sliding Window)或递归神经网络(RNN)存在明显局限:
- 滑动窗口:固定窗口大小难以捕捉多尺度特征,且相邻窗口重叠导致冗余计算。
- RNN/CNN:RNN的序列依赖性限制了并行性,CNN的局部感受野难以建模长期依赖。
3. Patch的核心定义与划分策略
在时间序列中,一个Patch是一段连续的时间片段,其划分包含两个关键参数:
- 长度(Patch Length):决定局部模式的粒度。例如,每小时温度数据中,一个Patch可能覆盖6小时。
- 步长(Stride):控制相邻Patch的重叠程度。非重叠(Stride=Length)降低冗余,重叠(Stride<Length)增强局部连续性。
示例:对长度为120的序列,若Patch Length=24、Stride=12,则得到9个重叠的Patch(覆盖范围:1-24, 13-36, …, 97-120)。
4. Patch的数学表达与特征提取
每个Patch可视为原始时序的局部投影:
P
i
=
W
⋅
X
t
:
t
+
L
−
1
+
b
P_i = \mathbf{W} \cdot X_{t:t+L-1} + \mathbf{b}
Pi=W⋅Xt:t+L−1+b
其中,
X
t
:
t
+
L
−
1
X_{t:t+L-1}
Xt:t+L−1为原始序列段,
W
\mathbf{W}
W和
b
\mathbf{b}
b为可学习的线性投影参数。通过堆叠多层Transformer,模型能够:
- 捕获局部模式:每个Patch内部隐含周期性或趋势性特征。
- 建立全局依赖:通过注意力机制关联不同时间段的Patch。
5. Patch化带来的优势
- 计算效率:降低序列长度,减少自注意力复杂度(从 O ( N 2 ) O(N^2) O(N2)到 O ( M 2 ) O(M^2) O(M2), M ≪ N M \ll N M≪N)。
- 多尺度建模:不同Patch长度可组合使用(如Inception式的多分支结构)。
- 抗噪声能力:局部聚合平滑随机波动,突出主导模式。
6. 关键研究进展
- PatchTST (2023):通过非重叠Patch划分,在长期预测任务中超越传统Transformer。
- TimesNet (2023):将时序转换为2D空间(类似图像),利用Patch分析周期性结构。
- DLinear:证明简单的Patch线性化可媲美复杂模型,引发对过参数化的反思。
7. 实践中的挑战
- Patch长度选择:需结合领域知识(如心电图中的心跳周期)。
- 边界效应:序列末尾的不足Patch需特殊处理(如填充或截断)。
- 跨变量交互:多元时序中,不同变量的Patch如何联合编码?
8. 未来方向
- 动态Patch划分:自适应调整长度和步长(如强化学习控制)。
- 层次化Patch结构:从微观到宏观的多层级特征金字塔。
- 与物理模型融合:将领域知识嵌入Patch编码过程(如流体动力学约束)。
总结:从碎片到整体,重新理解时间
时间序列的“Patch化”不仅是一种技术改进,更是认知范式的转变——它摒弃了逐点分析的原子视角,转而通过局部片段间的相互作用重建全局动态。这种思想正在重塑时序预测、异常检测乃至因果推理的研究框架,其潜力远未完全释放。