ICLR 2025 | LLMs 能够理解时间序列异常吗？-CSDN博客

来源：时序人‍‍‍‍
本文约4600字，建议阅读10+分钟
本文介绍一篇 ICLR 2025 中的工作，该工作旨在调查大型语言模型（LLMs）是否能够理解并检测时间序列数据中的异常，重点关注零样本和少样本场景。

受时间序列预测研究中关于 LLMs 行为的猜想的启发，研究者针对 LLMs 在时间序列异常检测方面的能力提出了关键假设。研究表明：(1) LLMs 将时间序列作为图像理解的效果优于作为文本理解；(2) 当被提示进行显式的时间序列分析推理时，LLMs 并未表现出性能提升；(3) 与普遍观点相反，LLMs 对时间序列的理解并非源于其重复偏差或算术能力；(4) 在时间序列分析中，不同 LLMs 的行为和性能存在显著差异。

本研究首次全面分析了当代 LLMs 在时间序列异常检测方面的能力。结果表明，虽然 LLMs 能够理解简单的时间序列异常，但研究者并没有证据表明它们能够理解更微妙的现实世界中的异常。

【论文标题】

CAN LLMS UNDERSTAND TIME SERIES ANOMALIES?

【论文地址】

https://arxiv.org/abs/2410.05440

【论文源码】

https://github.com/rose-stl-lab/anomllm

论文概述

LLMs 在时间序列预测中的显著进展使其被应用于多个领域，但在时间序列分析中的有效性仍存在争议。虽然一些研究人员认为 LLMs 可以利用其预训练知识来理解时间序列模式，但其他研究人员认为简单的模型可以与 LLMs 相匹配甚至超越它们。这种争议引发了以下根本性问题：LLMs 是否真正理解时间序列？

要回答这个问题，必须超越模型的预测性能。预测通常依赖于均方误差（MSE）等指标，这些指标可能会掩盖模型对时间序列动态的深层理解。一个仅输出接近常数的模型可能仍然能够获得可接受的 MSE，但这并不能揭示其对模式的解释能力。将重点转向异常检测会改变游戏规则：它迫使 LLMs 识别出不规律的行为，从而测试它们是否真正理解底层模式，而不仅仅是如何外推平均值。

本文首次全面研究了 LLMs 在时间序列异常检测中的能力。研究者专注于最先进的 LLMs 和多模态 LLMs（M-LLMs），并在受控条件下针对不同类型的异常进行了测试。实验评估策略包括多模态输入（时间序列的文本和视觉表示）、各种提示技巧以及结构化输出格式，结果通过亲和力 F1 分数进行量化评估。研究者提供了实证证据来挑战关于 LLMs 时间序列理解的现有假设。该研究发现并揭示了 LLMs 在时间序列分析中的几个令人惊讶的方面，包括：

视觉优势：与文本表示相比，LLMs 在处理时间序列图像时表现更好。
有限推理能力：在分析时间序列时，LLMs 不会从明确的推理提示中受益。当被提示解释其推理过程时，其表现通常会下降。
替代处理机制：与普遍观点相反，LLMs 对时间序列的理解并非源于其重复偏差或算术能力，这挑战了关于这些模型如何处理数值数据的常见假设。
模型异质性：不同 LLM 架构在时间序列理解和异常检测能力上存在显著差异，这突出了模型选择的重要性。

时序异常检测概述

01 异常定义‍

时间序列异常检测的目标是识别出偏离正常模式的数据点。具体定义如下：

1. 时间序列的表示：

时间序列 X:={x1,x2,…,xT} 是在固定时间间隔内收集的数据点，其中 xt 是时间 t 的特征标量或向量，T 是总时间点数。

2. 异常的定义：

生成函数：假设时间序列是确定性的，数据点 xt 如果偏离由生成函数 G 预测的值超过阈值 δ，则被认为是异常：

条件概率：假设时间序列是随机的，数据点 xt 如果其条件概率低于某个阈值 ϵ，则被认为是异常：

3. 异常检测算法的输出：

输出可以是二进制标签 Y:={y1,y2,…,yT}，其中 yt=1 表示异常，yt=0 表示正常。
输出异常分数 {s1,s2,…,sT}，其中分数越高表示越可能是异常。通过阈值 θ 可以将分数转换为二进制标签。

02 异常模式分类‍

时间序列预测和异常检测在任务定义上存在相似性，都依赖于对时间序列模式的外推。具体如下：

1. 时间序列预测：

确定性预测：学习生成函数 G。
概率性预测：学习条件概率函数 P。

2. 异常检测：

通过外推“正常”行为来识别偏离预期模式的点。这与预测任务类似，只是目标是识别异常而非预测未来值。

3. LLMs 的应用：

LLMs 在时间序列预测中的零样本外推能力被广泛研究，这些研究的假设可以扩展到异常检测任务中。例如，LLMs 的自回归生成能力与时间序列步骤的外推相似，这为将 LLMs 应用于异常检测提供了理论基础。

图1：不同异常类型的时间序列示例，异常区域用红色高亮显示

LLMs对时序的理解

01 提出假设‍

为了系统地研究 LLMs 在时间序列异常检测中的表现，研究者提出了以下七个假设，这些假设涵盖了 LLMs 的推理路径和偏差：

假设1：链式思考推理

LLMs 不会从逐步推理中受益。即在分析时间序列数据时，明确的推理提示（如“让我们一步一步思考”）不会提升 LLMs 的性能，甚至可能导致性能下降。

假设2：重复偏差

LLMs 的重复偏差与其识别周期性结构的能力相关。如果 LLMs 依赖于重复的模式来识别周期性异常，那么在引入微小噪声后，其性能应该会显著下降。

假设3：算术能力

LLMs 的算术能力（如加法和乘法）与其外推线性和指数趋势的能力相关。如果 LLMs 依赖算术能力来识别趋势异常，那么在削弱其算术能力后，其性能应该会下降。

假设4：视觉推理

时间序列异常作为图像比作为文本更容易被 LLMs 检测。这可能是因为人类分析师通常通过视觉方式检测时间序列异常，而多模态 LLMs（M-LLMs）在视觉任务上表现出色。

假设5：视觉感知偏差

LLMs 的异常检测能力受到人类感知偏差的限制。例如，人类在检测加速变化时比检测趋势反转更困难，如果 LLMs 表现出类似的感知偏差，那么它们在检测加速异常时的表现应该比检测趋势反转更差。

假设6：长文本上下文偏差

LLMs 在处理较短时间序列时表现更好，即使这意味着信息丢失。这可能是因为 LLMs 在处理长序列时存在困难，尤其是在需要处理大量时间步长时。

假设7：模型家族一致性

LLMs 对时间序列的理解在不同模型家族之间是一致的。如果这一假设成立，那么在某些模型上观察到的现象应该在其他模型上也能复现。

02 提示策略‍

为了验证上述假设，研究者设计了多种提示策略，以测试LLMs在不同条件下的表现：

1. 零样本和少样本学习：

零样本学习：LLMs 在没有任何标注样本的情况下进行异常检测。

少样本学习：LLMs 使用少量标注样本进行学习，以提高检测性能。

2. 链式思考：

通过逐步推理的方式引导 LLMs 进行异常检测。例如，提示 LLMs 描述时间序列的一般模式，识别偏离模式的点，并判断这些偏离是否构成异常。

3. 输入表示：

文本表示：将时间序列数据以文本形式输入 LLMs，包括原始数值、CSV 格式、统计信息前缀（如均值、中位数、趋势）和按位表示（将浮点数拆分为单独的数字）。
视觉表示：将时间序列数据以图像形式输入多模态 LLMs，利用其视觉理解能力。

4. 输出格式：

要求 LLMs 以 JSON 格式输出异常范围，例如 [{"start": 10, "end": 25}, {"start": 310, "end": 320}]。这种格式便于与真实标签进行比较，并进行量化评估。

LLMs对时序的理解

01 实验设置‍

1. 模型选择

实验使用了四种最先进的多模态大语言模型（M-LLMs），包括：

Qwen-VL-Chat：阿里巴巴云开发的高性能量子语言模型，支持文本-图像对话任务。
InternVL2-Llama3-76B：开源的多模态 LLM，结合了高质量的双语数据集和强大的视觉编码器。
GPT-4o-mini：OpenAI 开发的成本效益较高的小型版本 GPT-4o，支持文本和视觉输入。
Gemini-1.5-Flash：谷歌开发的快速多模态模型，优化了高容量和高频任务。

这些模型涵盖了不同的架构（如Qwen、LLaMA、Gemini、GPT），以验证模型架构对时间序列理解的影响。

2. 数据集构建

为了测试不同类型的异常，研究者合成了以下四种主要数据集：

点异常（Point Anomalies）：在周期性正弦波中插入噪声和不可预测的偏差。
范围异常（Range Anomalies）：在高斯噪声中插入突然的尖峰。
趋势异常（Trend Anomalies）：在缓慢增加的趋势中插入加速或反转的趋势。
频率异常（Frequency Anomalies）：在周期性正弦波中插入频率变化。

此外，还添加了噪声版本的数据集以测试假设2（重复偏差）和假设5（视觉感知偏差）。所有数据集均包含400个时间序列，每个序列有1000个样本点。

3. 评估指标

由于 LLMs 输出的是离散的异常区间，而不是连续的异常分数，因此研究者使用了以下评估指标：

精确率（Precision）、召回率（Recall）和 F1分数：这些指标将时间序列视为离散点的集合，但忽略了时间顺序。
亲和力精确率（Affinity Precision）和亲和力召回率（Affinity Recall）：这些指标考虑了时间序列的时间顺序，更适合评估异常检测任务。最终的评估指标是亲和力F1分数（Affinity F1），它是亲和力精确率和亲和力召回率的调和平均值。