综述 | 利用视觉模型进行时间序列分析-CSDN博客

来源：时序人
本文约6000字，建议阅读10+分钟本综述讨论了视觉模型在时间序列分析方面相较于大语言模型的优势。

本综述讨论了视觉模型在时间序列分析方面相较于大语言模型的优势。它提供了一个全面且深入的概述，包括详细的分类方法，回答了关键的研究问题，即如何将时间序列编码为图像，以及如何为各种任务对成像后的时间序列进行建模。此外，还探讨了该框架中涉及的预处理和后处理步骤的挑战，并概述了未来利用视觉模型进一步推进时间序列分析的方向。

【论文标题】

Harnessing Vision Models for Time Series Analysis: A Survey

【论文地址】

https://arxiv.org/abs/2502.08869

论文概述

时间序列分析经历了从传统自回归模型到深度学习模型（如卷积神经网络，CNNs）、Transformer 和 LLMs 的发展。近年来，随着语言领域中序列建模技术的进展，研究者开始将注意力转向利用 Transformer 和 LLMs 进行时间序列建模。然而，LLMs 在处理连续时间序列时存在局限性，例如与离散标记的不匹配、上下文长度限制以及高 API 成本等问题。

与此同时，LVMs 在图像领域取得了巨大成功，其优势在于能够捕捉图像中的序列模式（如趋势、周期和峰值）。时间序列可以通过多种方式转换为图像（如折线图、热图、频谱图等），这些图像为时间序列分析提供了更直观的视角。与 LLMs 相比，大型视觉模型在时间序列建模中具有以下优势：

图像与时间序列的固有关系使其更适合捕捉连续序列模式。
某些成像方法可以自然地表示多变量时间序，从而显式编码变量间的相关性。
LVMs 在处理图像化时间序列时对提示更友好，且 API 成本更低。
LVMs 与 LLMs 的结合为多模态时间序列分析提供了新的可能性。

尽管 LVMs 在时间序列分析中的潜力逐渐被挖掘，但目前尚缺乏对相关工作的全面综述。本文旨在填补这一空白，提出了一个双重视角的分类框架：时间序列到图像的转换方法和图像化时间序列的建模方法。此外，该综述还讨论了预处理和后处理的挑战，并展望了未来的研究方向。

图1：利用视觉模型进行时间序列分析的一般流程。红色框表示本调查中使用的两种分类视角。虚线框表示可选的、根据任务而定的步骤

时序到图像的转换

本节总结了将时间序列成像的方法以及将这些方法扩展以编码多变量时间序列的方法。

图2：以电力基准数据集[Nie等人，2023]中的一个样本（长度=336）为例，展示了时间序列成像的不同方法

表2：将时间序列转换为图像的五种主要方法概述。TS-Type表示时间序列的类型。

01 折线图‍

线图是一种直观展示单变量时间序列（UTS）的方法，通过将时间步作为x轴，时间序列值作为y轴，用一条线连接所有数据点。

优点：与人类对时间序列的直观理解一致，适用于金融、电力消耗等领域的可视化。

扩展：一些方法（如MV-DTSA 和 ViTime）将图像划分为网格，并将时间序列映射到网格中，生成网格化的线图。此外，Scatter Plot（散点图）也被归入此类，因为它与线图类似，只是不连接数据点。

建模多变量时间序列：可以通过在同一图像中绘制所有变量的线图，或者将每个变量的线图组合成更大的图像来处理多变量时间序列（MTS）。

02 热图‍

热图是一种二维可视化方法，通过颜色表示矩阵中值的大小。对于 MTS，可以将矩阵X（维度为d×T）表示为一个单通道的 d×T 图像。

优点：可以直观地展示矩阵的值大小，适用于处理 MTS。

扩展：TimEHR 通过将不规则时间步分组为均匀时间箱，生成热图图像。VisionTS 通过将 UTS 分割为子序列，并将这些子序列堆叠成矩阵，生成灰度图像输入到 LVM。

建模多变量时间序列：直接将 MTS 的变量-时间矩阵可视化为热图，其中相关变量应尽可能在空间上靠近。

03 频谱图‍

频谱图是信号频率谱随时间变化的可视化表示，通常用于音频信号分析。常见的生成方法包括短时傅里叶变换（STFT）、小波变换和滤波器组。

STFT：通过在时间序列上滑动窗口函数并计算每个窗口内的离散傅里叶变换，生成频谱图。

小波变换：通过比较信号与不同尺度的小波函数的相似性，生成频谱图。

滤波器组：在音频信号处理中常用，通过预加重滤波器增强高频信号，然后应用 STFT 和滤波器组提取频率带。

优点：能够捕捉时间序列的频率信息，适用于音频信号等UTS的分析。

04 格兰姆角场‍‍

格兰姆角场（Gramian Angular Field，GAF）通过将 UTS 映射到极坐标系中，生成一个 T×T 的矩阵 G，其中 G 的元素由 GASF（格拉姆和角场）或 GADF（格拉姆差角场）公式计算。

优点：能够捕捉 UTS 中的时间相关性，生成的图像可以直观地表示时间序列的动态变化。

扩展：GAF 可以用于时间序列分类、预测等任务。

05 复发图‍

复发图（Recurrence Plot，RP）通过时间延迟嵌入重建时间序列的相空间，然后测量相空间向量之间的距离，生成一个二值图像。

优点：能够捕捉时间序列的周期性模式，图像大小可以通过调整参数灵活控制。

扩展：RP 可以用于时间序列分类、预测、异常检测等任务。

06 其他方法‍

通过编码时间序列的时间段之间的转移概率，生成一个矩阵图像。

混合方法：通过将不同转换方法生成的图像堆叠在一起，形成多通道图像，以提供时间序列的多视角表示。例如，FIRTS 将 GASF、MTF 和 RP 堆叠在一起，用于分类任务。

建模多变量时间序列：对于不直接支持 MTS 的图像方法（如GAF、RP和Spectrogram），通常采用以下方法：

通道独立性假设：对每个变量单独建模。
多通道图像：将d个变量的图像堆叠成一个d通道的图像，但这种方法可能不适用于预训练的 LVM，因为它们通常需要3通道的RGB输入。

表1：时间序列上的视觉模型分类。上半部分包括单模态模型。下半部分包括多模态模型。TS-Type表示时间序列的类型。

图像时间序列建模

本节作者详细讨论了将时间序列转换为图像后，如何利用视觉模型进行建模和分析。本节从传统视觉模型到最新的 LVMs 和大型多模态模型（LMMs），对现有的方法进行了分类和讨论，并探讨了任务特定头（Task-Specific Heads）的设计。

图3：图示了(a)(b)(c)中对时间序列图像的不同建模策略，以及(d)中的特定任务处理模块

01 传统视觉模型‍

传统视觉模型主要基于 CNNs 及其变体，如 ResNet、Inception-v1 和 VGGNet。这些模型被广泛应用于处理图像化的时间序列数据。

应用方式：

线图：使用 CNN 对线图进行分类或预测。例如，ViTST 使用 ResNet 对线图进行时间序列分类。
热图：将热图作为输入，使用 CNN 进行多变量时间序列的预测或异常检测。
频谱图：通过 CNN 对频谱图进行分析，适用于音频信号等时间序列的分类或预测任务。
GAF 和 RP：使用 CNN 对 GAF 或 RP 图像进行建模，适用于时间序列分类和预测。

优点：这些模型通常具有较好的灵活性，可以通过调整网络结构或训练策略来适应不同的任务。

挑战：由于传统 CNN 模型通常需要大量标注数据进行训练，因此在小数据集上可能表现不佳。此外，它们通常需要从头开始训练，缺乏预训练模型的迁移学习能力。

02 大型视觉模型

随着 Vision Transformer（ViT）及其变体（如 Swin Transformer、BEiT、MAE 等）的发展，LVMs逐渐被应用于时间序列分析。这些模型通过将图像分割为固定大小的 patch，并将 patch 嵌入到 Transformer 架构中进行处理。

应用方式：

预训练与微调：许多工作使用预训练的 LVMs（如 MAE、DeiT 等）进行微调，以适应特定的时间序列任务。例如，VisionTS 通过微调 MAE 实现了时间序列预测。
自监督学习：一些工作探索了基于自监督学习的预训练方法，如 SSAST 通过掩码频谱图 patch 预测任务对 ViT 进行预训练。
零样本学习：ViTime 通过预训练 ViT 生成大量的线图，并在零样本任务中表现出色。

优点：

强大的特征提取能力：LVMs 能够捕捉图像中的复杂模式，适用于时间序列的长期依赖建模。
迁移学习能力：预训练的 LVMs 可以迁移到多种时间序列任务，减少训练成本。

挑战：

计算资源需求：LVMs 通常需要大量的计算资源进行训练和微调。
输入图像的预处理：需要将时间序列图像化后调整为预训练模型的输入格式（如图像大小、通道数等）。

03 大型多模态模型‍

LMMs（如LLaVA、Gemini、GPT-4o、Claude-3等）能够同时处理文本和图像输入，通过提示（prompting）的方式将时间序列的图像和文本表示整合到模型中。

应用方式：

提示学习：通过将时间序列的图像表示（如线图、热图）和文本指令（如任务描述）组合成提示，输入到 LMMs 中。例如，InsightMiner 使用 LLaVA 生成描述时间序列趋势的文本。
零样本学习和少样本学习：一些工作评估了 LMMs 在时间序列分类、异常检测等任务中的零样本或少样本性能。

优点：

多模态融合：能够同时利用视觉和语言信息，提供更丰富的上下文。
灵活性：通过提示设计，可以快速适应不同的任务和数据。

挑战：

提示设计的复杂性：需要精心设计提示以引导模型输出正确的结果。
模型的可控性：LMMs 的输出可能不够稳定，需要进一步优化。

04 任务特定头

任务特定头是连接视觉模型输出和最终任务目标的模块，通常根据任务类型设计不同的网络结构。

应用方式：

分类任务：使用全连接层（FC）或多层感知机（MLP）将视觉模型的特征嵌入转换为类别概率分布。
预测任务：有两种主要方法：

（1）直接从特征嵌入预测时间序列值。

（2）预测图像的像素值，然后将图像转换回时间序列（如 VisionTS）。

多模态任务：在 LMMs 中，通常通过提示直接生成文本结果，避免使用任务特定头。

优点：任务特定头可以根据任务需求灵活设计，提高模型的适应性和性能。

挑战：需要根据不同的任务和模型架构进行定制化设计。

预处理和后处理

作者详细讨论了在利用视觉模型进行时间序列分析时，预处理和后处理步骤的关键设计要点和挑战。这些步骤对于确保时间序列图像化后的模型性能至关重要。

01 时间序列归一化

视觉模型通常在标准化的图像上进行训练，因此时间序列转换为图像后需要进行归一化处理，以匹配模型的输入要求。

方法：

频谱图：通过标准化频谱图的像素值，使其具有可控的均值和标准差。
热图：由于热图直接基于时间序列的原始值，可以使用实例归一化（Instance Normalization, IN）对时间序列进行预处理，类似于标准化操作。
线图：需要调整y轴的范围，并可能需要去除极端值以避免图像中的异常点。
GAF：需要对输入进行 min-max 归一化，因为 GAF 将时间序列值映射到[0, 1]区间以转换为极坐标。
RP：通常不需要归一化，因为 RP 在计算过程中会使用ℓ2范数，归一化可能会在阈值化步骤中丢失信息。

目的：归一化可以确保时间序列转换后的图像与视觉模型的输入要求一致，同时避免因数值范围差异导致的模型性能下降。

02 图像对齐‍

预训练的视觉模型（尤其是基于Transformer的模型）通常对输入图像的大小和通道数有严格要求。因此，时间序列转换后的图像需要进行调整以适配这些要求。

方法：

调整通道数：

（1）对于单通道图像（如热图、频谱图、GAF、RP），可以通过复制矩阵生成3通道图像。

（2）可以通过调整预训练模型的权重，将3通道的 patch 嵌入层调整为1通道。

调整图像大小：

（1）使用双线性插值调整图像的分辨率。

（2）调整位置嵌入以适配模型的输入要求。

挑战：插值可能会改变时间序列的原始信息或位置嵌入的空间信息，从而影响模型的性能。

03 时间序列恢复‍

对于预测任务（如时间序列预测、插补和生成），模型通常会预测图像的像素值，因此需要从预测的图像中恢复出原始的时间序列。

方法：

线图：恢复较为复杂，需要定位图像中代表时间序列的像素，并将其映射回原始值。可以通过网格化的线图来实现，这些线图具有明确的恢复函数。
热图：恢复较为直接，因为热图直接存储了时间序列的预测值。
频谱图：目前在恢复任务中较少使用，但可以通过MLP头直接预测时间序列值。
GAF：支持通过逆映射从极坐标恢复到归一化的时间序列。
RP：由于 RP 在阈值化过程中会丢失时间序列信息，因此不适合用于需要恢复的任务，除非使用专门的预测头。

挑战：恢复过程需要确保从图像中提取的时间序列信息准确无误，同时避免因图像化过程中的信息丢失而导致的误差。

挑战与未来方向

01 基础理解‍

鉴于存在多种时间序列成像方法，现有研究通常基于直觉选择特定方法。然而，目前对于以下问题仍缺乏系统性的理论和实证研究：哪些成像方法适合哪些任务，以及 LVMs 是否真正从图像中学习到比 LLMs 更有优势的模式。

挑战：尽管一些研究在有限的任务中比较了多种成像方法（例如，Imagetime 在时间序列生成任务中比较了 GAF、STFT 和延迟嵌入的表示能力），但目前仍缺乏能够指导未来基于不同成像方法的 LVMs 和 LMMs 发展的系统性理解。

未来方向：需要通过实证验证和理论证明进一步研究这些方法之间的协同作用，以填补 LVMs/LMMs 与时间序列分析之间的空白。

02 建模多变量时序的相关性‍

在第3.7节中，讨论了现有的 MTS 成像方法，但每种方法都有其局限性。例如，当通过热图图像可视化变量-时间矩阵时，变量所在的行对于下游相关性建模至关重要，因为视觉模型仅编码像素之间的空间关系，因此相关变量应彼此空间接近。同样，线图无法让视觉模型直接建模相关变量。将每个变量的图像堆叠成一个d通道输入可能无法使用预训练的 LVM，因为它们通常需要固定为3通道的 RGB 输入。

挑战：需要在成像步骤或建模步骤（例如，在变量上使用图神经网络 GNNs）中开发有效的方法，以从 MTS 中学习相关性。

未来方向：探索新的成像方法或结合 GNNs 等技术，以显式地从 MTS 中学习相关性。

03 时间序列的高级成像‍

除之前介绍的基本方法外，探索更高级的图像表示形式具有很大的潜力。例如，InsightMiner 采用了季节-趋势分解，这通常用于提取可以作为时间序列模型归纳偏差的组件。将这种方法推广到分解图像（例如，频谱图、GAF、RP）可能进一步增强视觉模型在时间序列分析中的能力。此外，成像的混合方法可能能够从不同角度编码信息，例如频率（频谱图）、时间关系（GAF）和复发模式（RP）。尽管 FIRTS 将多种图像堆叠成多通道以用于分类任务，但它仅限于相同大小的图像。通过多视图学习等方法对任意图像进行建模，可能带来更大的灵活性。

未来方向：探索将时间序列分解为更细粒度的图像表示（如季节-趋势分解），并研究多视图学习方法以整合不同成像方法的输出，从而提高视觉模型的性能。

04 多模态时间序列模型与代理‍

从表1可以看出，与单模态分析相比，现有视觉模态的多模态分析研究较少，且时间序列任务的范围有限。鉴于现有的时间序列 LLMs（例如，Time-LLM 和 S2IP），将视觉模态引入其中以进一步提升广泛任务（如预测、分类和异常检测）的性能具有很大的吸引力。此外，时间序列的视觉表示为探索多模态AI代理提供了基础，这些代理可以用于需要推理和与环境交互的更复杂、更细致的任务，例如IT运维（AIOps）中的根因分析。

未来方向：开发更多基于视觉和语言模态的多模态时间序列模型，并探索多模态AI代理在复杂任务中的应用潜力。

05 基于视觉的时间序列基础模型‍

基础模型（FM）是在大规模数据集上训练的深度学习模型，适用于广泛的任务。最近的时间序列 FMs（例如 TimesFM、MOMENT、Chronos 和 Time-MoE）大多基于 LLM 架构，并在原始时间序列上进行训练。鉴于图像表示的潜力，探索以视觉模型作为新架构以革新时间序列FMs是一个很有前景的研究方向。这一研究方向不仅可以利用 LVMs 的优势（如从大规模预训练图像中提取的先验知识），还可以推动时间序列的视觉-语言 FMs 的未来发展。

未来方向：开发基于视觉模型的时间序列 FMs，并探索其在不同任务中的表现。

编辑：黄继彦‍‍‍‍

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。