导读:
本文介绍了加利福尼亚大学在【ICLR 2025】发表的大模型与时间序列预测前沿研究成果。
大型语言模型(LLMs)在时间序列预测领域已颇受欢迎,但其在异常检测方面的潜力却鲜少被探索。本研究旨在探究 LLMs 是否能够理解并检测时间序列数据中的异常情况,重点关注零样本和少样本场景。本文提出了关于 LLMs 在时间序列异常检测能力方面的关键假设,设计并开展了有原则的实验来检验每一个假设。研究发现:1)LLMs 将时间序列理解为图像的效果优于理解为文本;2)当被提示进行时间序列分析的明确推理时,LLMs 并未表现出增强的性能;3)与普遍看法相反,LLMs 对时间序列的理解并非源于其重复偏差或算术能力;4)不同模型的 LLMs 在时间序列分析中的行为和性能差异显著。
本研究首次对当代 LLMs 在时间序列异常检测方面的能力进行了全面分析。研究结果表明,虽然大型语言模型能够理解简单的时序异常,但我们没有证据表明它们能够理解更微妙的真实世界异常。许多基于其推理能力的常见推测并不成立。
目前该领域的研究正在快速发展,想发论文的同学,可以多研究。另外为方便大家找参考,我整理了15篇【时间序列+LLM】相关的论文及代码,感兴趣的朋友可以自行领取~
感兴趣的可以 [丝 xin] 我~~
【论文标题】Can LLMs Understand Time Series Anomalies?
【论文链接】https://arxiv.org/abs/2410.05440](https://arxiv.org/abs/2410.05440
【代码链接】https://github.com/rose-stl-lab/anomllm](https://github.com/rose-stl-lab/anomllm
研究背景
大型语言模型(LLMs)取得的显著进展促使其在包括时间序列分析在内的多个领域得到应用。然而,LLMs 在时间序列分析中的有效性仍存在争议。一些研究认为 LLMs 能够利用其预训练的知识来理解时间序列模式,但也有观点认为更简单的模型能够与 LLMs 相匹敌甚至超越。这一争论引发了一个根本性的问题:LLMs 真正理解时间序列吗?
预测通常依赖于诸如均方误差(MSE)之类的指标,这可能会忽略模型更深层次的理解。一个仅仅输出近乎恒定直线的模型仍可能获得可接受的 MSE,但却无法揭示其解读动态的能力。将重点转向异常检测则改变了局面,这迫使 LLMs 精确指出异常行为,从而检验它们是否真正掌握了潜在模式,而不仅仅是它们对平均值进行外推的能力如何。
核心贡献
本文对现有的关于 LLMs 对时间序列理解的推测和主张提出了挑战。贡献可总结如下:
-
首次全面研究了 LLMs 对时间序列数据的理解,通过异常检测这一视角展开。重点关注了最先进的LLMs和多模态LLMs(M-LLMs)在不同异常类型下的表现,且在受控条件下进行。
-
对 LLMs 的时间序列异常理解能力进行了定量评估,评估策略结合了多模态输入(时间序列的文本和视觉表示)、多种提示技术以及结构化的输出格式。
-
研究结果揭示了LLMs在处理时间序列数据时的能力和局限性,提供了实证证据,对现有的关于LLMs对时间序列理解的推测和主张提出了挑战。
关键假设
1)关于链式思维(CoT)推理:LLM 模型无法从对时间序列数据进行逐步推理中获益。
2)关于重复偏差:LLM 的重复偏差恰好与其识别和外推时间序列中周期性结构的能力相对应。
3)关于算术推理:LLM 进行加法和乘法运算的能力与外推线性和指数趋势的能力相对应。
4)关于视觉推理:时间序列异常作为视觉输入比作为文本输入更容易被检测出来。在分析视觉时间序列表示时,LLM 在加速度感知方面表现出与人类感知偏差类似的检测局限性。
5)关于长上下文偏差:即使存在信息损失,对于标记较少的时间序列,LLM 的表现也会更好。
实验验证
本文使用了四种最先进的多模态大语言模型(M-LLMs)进行实验,四个主要数据集分别 对应不同的异常类型:点异常、范围异常、频率异常和趋势异常。使用精确率和召回率的调和平均值 F1 值,这是评估假设的主要指标。采用 F1 值的变体是因为 LLM 生成的是离散区间,而非异常分数。
实验结果表明,上述假设中: 1)成立。没有证据表明通过 CoT 提供的明确推理提示能提高 LLM
在时间序列分析方面的表现。
2)不成立。LLM 的重复偏差并不能解释它们识别周期性结构的能力。
3)不成立。大型语言模型对时间序列的理解与其执行算术运算的能力无关。 4)成立。与大型语言模型(LLMs)以文本形式检测时间序列异常相比,多模态大型语言模型(M-LLMs)以图像形式检测时间序列异常的效果更佳。 5)不成立。大型语言模型对异常情况的理解与人类的认知不一致。
6)成立。当输入的时间序列包含更多标记时,LLM 的表现会更差。
总结
在本文中,我们对大型语言模型(LLMs)对时间序列数据的理解及其异常检测能力进行了全面调查。我们的研究结果对当前文献中普遍存在的若干假设提出了挑战,强调了对有关 LLM 行为假设进行严格实证验证的必要性。我们的主要发现包括 LLM 的视觉优势、有限的推理能力、非人类般的处理方式以及模型特定的能力。这些见解对未来 LLM 的设计以及异常检测系统的开发具有重要意义。例如,我们的结果表明 LLM 无法有效检测视觉频率异常,因此基于视觉-LLM 的异常检测系统在将数据输入 LLM 之前应利用傅里叶分析来提高性能。我们的模型特定发现表明,模型选择和可能的集成方法对于设计基于 LLM 的异常检测系统至关重要。未来的研究应继续对有关大型语言模型在处理诸如时间序列等复杂数据类型方面的能力和局限性的假设进行实证检验。