【时间序列】Patch:到底是什么?

1. 从图像到时间序列的隐喻

在计算机视觉领域,“Patch”指图像中被切割的小块区域(例如将一张图片划分为16×16像素的局部片段)。Transformer模型(如ViT)通过分析这些Patch间的全局关系,成功捕捉了图像的语义信息。这种分块思想启发了时序领域的研究者——能否将连续的时间序列拆解为局部片段(Patch),并通过学习片段间的模式实现更高效的预测?

2. 传统时序建模的瓶颈

传统方法如滑动窗口(Sliding Window)或递归神经网络(RNN)存在明显局限:

  • 滑动窗口:固定窗口大小难以捕捉多尺度特征,且相邻窗口重叠导致冗余计算。
  • RNN/CNN:RNN的序列依赖性限制了并行性,CNN的局部感受野难以建模长期依赖。
3. Patch的核心定义与划分策略

在时间序列中,一个Patch是一段连续的时间片段,其划分包含两个关键参数:

  • 长度(Patch Length):决定局部模式的粒度。例如,每小时温度数据中,一个Patch可能覆盖6小时。
  • 步长(Stride):控制相邻Patch的重叠程度。非重叠(Stride=Length)降低冗余,重叠(Stride<Length)增强局部连续性。

示例:对长度为120的序列,若Patch Length=24、Stride=12,则得到9个重叠的Patch(覆盖范围:1-24, 13-36, …, 97-120)。

4. Patch的数学表达与特征提取

每个Patch可视为原始时序的局部投影:
P i = W ⋅ X t : t + L − 1 + b P_i = \mathbf{W} \cdot X_{t:t+L-1} + \mathbf{b} Pi=WXt:t+L1+b
其中, X t : t + L − 1 X_{t:t+L-1} Xt:t+L1为原始序列段, W \mathbf{W} W b \mathbf{b} b为可学习的线性投影参数。通过堆叠多层Transformer,模型能够:

  1. 捕获局部模式:每个Patch内部隐含周期性或趋势性特征。
  2. 建立全局依赖:通过注意力机制关联不同时间段的Patch。
5. Patch化带来的优势
  • 计算效率:降低序列长度,减少自注意力复杂度(从 O ( N 2 ) O(N^2) O(N2) O ( M 2 ) O(M^2) O(M2) M ≪ N M \ll N MN)。
  • 多尺度建模:不同Patch长度可组合使用(如Inception式的多分支结构)。
  • 抗噪声能力:局部聚合平滑随机波动,突出主导模式。
6. 关键研究进展
  • PatchTST (2023):通过非重叠Patch划分,在长期预测任务中超越传统Transformer。
  • TimesNet (2023):将时序转换为2D空间(类似图像),利用Patch分析周期性结构。
  • DLinear:证明简单的Patch线性化可媲美复杂模型,引发对过参数化的反思。
7. 实践中的挑战
  • Patch长度选择:需结合领域知识(如心电图中的心跳周期)。
  • 边界效应:序列末尾的不足Patch需特殊处理(如填充或截断)。
  • 跨变量交互:多元时序中,不同变量的Patch如何联合编码?
8. 未来方向
  • 动态Patch划分:自适应调整长度和步长(如强化学习控制)。
  • 层次化Patch结构:从微观到宏观的多层级特征金字塔。
  • 与物理模型融合:将领域知识嵌入Patch编码过程(如流体动力学约束)。

总结:从碎片到整体,重新理解时间

时间序列的“Patch化”不仅是一种技术改进,更是认知范式的转变——它摒弃了逐点分析的原子视角,转而通过局部片段间的相互作用重建全局动态。这种思想正在重塑时序预测、异常检测乃至因果推理的研究框架,其潜力远未完全释放。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值