TimeRAG：通过RAG进行时间序列预测

本文链接：https://blog.csdn.net/m0_59235245/article/details/145122915

https://arxiv.org/pdf/2412.16643

文章提出了一种名为TimeRAG的框架，通过将检索增强生成（Retrieval-Augmented Generation, RAG）引入时间序列预测的大型语言模型（Large Language Models, LLMs）中，以提高预测准确性。

TimeRAG框架从历史序列中构建时间序列知识库，使用动态时间规整（Dynamic Time Warping, DTW）作为距离度量，从知识库中检索与查询序列具有相似模式的参考序列，并将这些参考序列与预测查询结合为文本提示，输入到时间序列预测的LLM中。

unsetunset论文出发点unsetunset

时间序列预测在数据科学和机器学习研究中至关重要，广泛应用于金融市场分析、需求预测、天气预测等领域。

然而，现有的时间序列预测LLMs难以适应不同领域，且训练成本高昂，通常针对特定领域进行优化。

此外，由于LLMs的“幻觉”问题，它们可能会生成不准确的预测、异常值或与数据不符的模式，缺乏可解释性。

unsetunset论文方法unsetunset

方法概述

为了提升大型语言模型（LLMs）在时间序列预测任务中的性能，文章提出了一种名为 TimeRAG 的检索增强框架。该框架由两个主要组件构成：时间序列知识库（Time Series Knowledge Base, KB）（II-B部分）和 基于LLM的时间序列预测模型（II-C部分）。具体流程如下：

时间序列分割：首先，TimeRAG 通过滑动窗口将原始时间序列分割成多个子序列。
构建知识库：利用 K-means 聚类从训练集中提取具有代表性的子序列，构建时间序列知识库。
检索相似序列：给定时间序列预测查询，使用动态时间规整（Dynamic Time Warping, DTW）作为距离度量，从知识库中检索与查询序列具有相似波形和趋势的参考序列。DTW 的优势在于能够处理时间序列中的时间扭曲问题。
生成提示并预测：将输入查询和检索到的参考序列重新组合成自然语言提示，输入到 LLMs 中进行预测。

时间序列知识库

为了构建时间序列知识库，TimeRAG 采用以下步骤：

序列分割：通过滑动窗口对原始序列进行分割。给定一个时间序列，TimeRAG 使用步长为、窗口长度为的滑动窗口将分割成多个子序列，其中。
聚类提取代表性序列：对分割后的子序列进行 K-means 聚类，以捕捉具有代表性的序列。具体步骤如下：

初始化聚类中心，其中是从子序列集合中随机选择的。
使用欧氏距离（公式1）计算每个子序列与所有聚类中心的距离，并将其分配到最近的聚类中心。
迭代更新聚类中心为每个簇中序列的均值，并重新分配子序列，直到聚类中心稳定。

构建知识库：从每个聚类中选择距离聚类中心最近的序列，构建时间序列知识库。

基于检索增强的LLM时间序列预测

尽管 LLMs 在时间序列预测中表现出色，但在处理未训练过的序列时，其预测准确性会下降。此外，LLMs 存在“遗忘”问题，可能导致预测准确性降低。为了解决这些问题，TimeRAG 引入了基于检索增强的LLM时间序列预测方法，分为两个阶段：

基于DTW的相似序列检索：

给定预测查询序列和时间序列知识库，TimeRAG 使用 DTW 从知识库中检索与查询序列最相似的前 K 个序列。
DTW 通过构建一个的矩阵来计算查询序列和知识库中序列之间的距离（公式2）。
通过动态规划找到最短的规整路径（公式3），并计算序列之间的相似度（公式4）。
选择相似度最高的前 K 个序列作为检索结果。

LLM预测：

TimeRAG 采用 TimeLLM 的方法，通过一个重编程层将序列模态与自然语言模态对齐。
将输入查询序列和检索到的相似序列通过重编程层转换并拼接成一个提示（prompt），输入到 LLMs 中进行预测，从而提升预测性能。

unsetunset实验对比unsetunset

实验设置

实验在 M4 基准数据集 上进行评估。M4 数据集广泛用于时间序列预测，包含来自金融、人口统计、市场营销等多个领域的数据，具有不同的时间采样频率（如年、季度、月、周、日、小时）。每个频率对应特定的预测范围和输入长度，支持对预测模型的全面评估。

采用以下三个广泛接受的指标来评估模型性能：

SMAPE（对称平均绝对百分比误差）：衡量预测值与实际值之间的百分比误差。
MASE（平均绝对缩放误差）：评估模型的预测准确性相对于朴素预测策略的表现，具有尺度独立性和鲁棒性。
OWA（整体加权平均）：结合 SMAPE 和 MASE，提供对模型性能的综合评估。

将 TimeRAG 与多种最先进的时间序列模型进行比较，包括：

基于 Transformer 的模型：iTransformer、FEDformer、Pyraformer、Autoformer、Informer 和 Reformer。
其他竞争模型：Time-LLM、DLinear、TSMixer、MICN、FiLM 和 LightTS。

实验结果

TimeRAG 与 Time-LLM 的比较：

TimeRAG 在预测准确性上显著优于未使用 RAG 的 Time-LLM。
平均而言，TimeRAG 在 SMAPE 上降低了 1.13%，在 MASE 上降低了 4.78%，在 OWA 上降低了 3.00%，整体提升了 2.97%。
在最佳情况下，TimeRAG 在“周”频率上的 SMAPE 降低了 0.74，MASE 提升了 13.12%。

TimeRAG 与其他 SOTA 模型的比较：

TimeRAG 在当前训练范式下，在 MASE 和 OWA 指标上表现最佳。
平均 MASE 得分为 2.72，是所有评估模型中的最低值，表明其预测准确性最高。
在 OWA 指标上，TimeRAG 以 1.03 的得分领先，其次是 FEDformer 和 Time-LLM。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述