时序大模型整理-论文+对比

江海寄

已于 2024-09-26 10:50:25 修改

阅读量5.1k

点赞数 43

文章标签：人工智能语言模型 opencv 计算机视觉机器学习自然语言处理文心一言

于 2024-09-25 17:31:55 首次发布

本文链接：https://blog.csdn.net/qq_42854305/article/details/142529089

版权

Timer

https://arxiv.org/abs/2402.02368

Timer是一个由清华大学提出的大型时间序列模型（Large Time Series Model, LTSM），它基于Transformer的解码器-only结构，通过在大规模真实世界时间点上进行生成式预训练，获得了任务通用的时序分析模型。以下是关于Timer模型的详细介绍：

1.研发团队：

Timer由清华大学软件学院机器学习实验室和大数据系统软件国家工程研究中心的研究团队提出。

2.模型架构：

在这里插入图片描述

Timer模型采用了Transformer的解码器-only结构，这种结构允许模型通过自回归生成进行预训练，从而学习时间序列的生成过程。

3.训练数据和规模：

Timer在称为Unified Time Series Dataset (UTSD)的大规模时间序列数据集上进行预训练，该数据集包含来自不同领域的10亿个时间点，覆盖七个领域的高质量时间序列。

4.性能和优势：

Timer在时间序列预测、插补和异常检测等任务上展现出了卓越的性能，特别是在数据稀缺的情况下，其性能优势更加明显。
模型的可扩展性体现在随着模型大小和数据规模的增加，性能得到了显著提升。

5.应用场景：

Timer适用于多种时间序列分析任务，包括但不限于金融分析、气象预测、医疗健康、供应链管理等领域。

MOIRAI

Moirai: A Time Series Foundation Model for Universal Forecasting

MOIRAI是由Salesforce AI Research开源的时间序列预测基础模型，它具备多变量时间序列预测的能力，并且支持零样本预测。以下是MOIRAI模型的详细介绍：

1.研发团队：

Salesforce AI Research团队负责开发MOIRAI模型。

2.模型架构：

在这里插入图片描述

MOIRAI模型基于掩码编码器的Transformer架构，设计用于处理时间序列数据的异构性。
引入了多尺寸补丁投影层、任意变量注意力机制和混合分布，以解决不同频率、变量和概率预测的挑战。

3.训练数据和规模：

MOIRAI在包含270亿观测值的大规模多样化数据集上进行预训练，该数据集被称为LOTSA，涵盖了九个不同的时间序列领域。

4.性能和优势：

MOIRAI在分布内和分布外的性能上显示出竞争力，甚至在某些情况下超过了全样本模型。
它能够处理各种数据频率、适应任何数量和类型的协变量，并使用灵活的分布生成概率预测。

5.应用场景：

尽管没有具体的应用场景描述，但MOIRAI模型的多变量预测能力和零样本预测能力使其适用于需要时间序列预测的多种场景，如金融分析、气象预测、库存管理等。

MOMENT

https://arxiv.org/abs/2402.03885

MOMENT是由卡内基梅隆大学（CMU）Auton实验室的研究团队开发的一款开源的时间序列基础模型，旨在解决时间序列分析中的一些挑战，特别是在数据多样性和预训练模型评估基准方面的挑战。

1.研发团队：

MOMENT由卡内基梅隆大学（CMU）Auton实验室的研究团队开发。

2.模型架构：

在这里插入图片描述

自监督学习: MOMENT使用了一种巧妙的自监督学习方法。它将输入的时间序列随机遮蔽一部分,然后训练模型去重建这些被遮蔽的部分。这种方法不需要额外的标注,却能让模型学习到时间序列的内在结构。
通用架构: MOMENT采用了基于Transformer的架构,这种架构在处理序列数据方面已经证明了其强大的能力。通过对时间序列数据进行特殊的编码和处理,MOMENT能够有效地捕捉长期和短期的依赖关系。
多任务学习: 在预训练阶段,MOMENT同时学习多个相关任务,如重建、预测等。这有助于模型学习到更加丰富和通用的表示。

3.训练数据和规模：

研究团队收集并整理了一个名为"Time-series Pile"的大规模时间序列数据集，涵盖了多个领域的数据。

4.性能和优势：

MOMENT模型在多个时间序列分析任务上展现出了强大的性能，包括预测、分类、异常检测和插值填充。
它能够利用自监督学习方法，通过模型学习重建其输入的遮蔽部分，特别适合于预测和输入任务。

5应用场景：

时间序列预测: 无论是短期还是长期预测,MOMENT都展现出了强大的性能。在多个数据集上,它甚至超越了传统的统计方法如ARIMA。
时间序列分类: MOMENT能够有效地区分不同类型的时间序列,在ECG5000心电图数据集等多个分类任务中表现优异。
异常检测: 通过学习正常模式,MOMENT能够敏锐地识别出时间序列中的异常点或异常段。
缺失值填补: 利用其强大的重建能力,MOMENT可以准确地估计和填补时间序列中的缺失值。
特征提取: MOMENT学习到的表示可以作为其他机器学习模型的输入特征,提高下游任务的性能。

Chronos

https://arxiv.org/pdf/2403.07815v1

Chronos是由Amazon开源的时间序列预测模型，它通过对时间序列数据进行标记，并使用交叉熵损失函数在这些标记化的序列上训练语言模型来实现预测。以下是关于Chronos模型的详细介绍：

1.研发团队：

Chronos由Amazon的研究团队开发，该团队包括Abdul Fatir Ansari, Lorenzo Stella, Caner Turkmen等成员。

2.模型架构：

在这里插入图片描述

Chronos模型基于现有的Transformer语言模型架构，如T5，通过量化和逆量化的过程将时间序列数据转换为标记序列，然后使用交叉熵损失进行训练。

3.训练数据和规模：

Chronos在大量公开可用的时间序列数据以及使用高斯过程生成的合成数据上进行了训练。

4.性能和优势：

通用性: Chronos可以处理各种类型的时间序列数据,不受特定领域的限制。
样本学习能力: 经过预训练的Chronos模型可以直接应用于未见过的数据集,无需额外的微调。
概率预测: Chronos生成的是概率分布而非单点预测,更好地捕捉了未来的不确定性。
可扩展性: 基于Transformer架构,Chronos可以轻松扩展到更大的模型规模。

5.应用场景：

Chronos可以处理各种类型的时间序列数据，适用于金融分析、气象预测、库存管理等多种场景。

Lag-Llama

https://arxiv.org/pdf/2310.08278

Lag-Llama 是一款基础模型，专门用于单变量概率时间序列预测，基于Decoder-only的Transformer架构。该模型通过大量多样化的时间序列数据进行预训练，能够实现零样本预测（zero-shot forecasting），并且在多个下游数据集上表现出色。

1. 研发团队：

由多个研究机构合作开发，包括蒙特利尔大学、CERC-AAI实验室、ServiceNow和摩根士丹利等团队。该团队旨在开发一个能处理不规则时间序列的通用模型。

2. 模型架构：

Lag-Llama 基于LLaMA模型的Decoder-only Transformer架构，使用时间序列的滞后特征（lag features）作为协变量进行建模。模型通过将历史数据片段转换为特征向量，输入到因果掩码自注意力层中，然后预测下一时间步的概率分布。
旋转位置编码（RoPE） 和 RMSNorm 被引入到模型的每个注意力层中，以增强对复杂时间序列的处理能力。

3. 滞后特征与时间序列建模：

模型使用滞后索引构建滞后特征，涵盖从季度、月度到秒级别的频率，确保模型可以应对不同频率的数据。
这些滞后特征提供了关于历史时间点的信息，模型通过自回归机制对未来的时间点进行预测，形成多个模拟的未来轨迹。

4. 性能与扩展性：

零样本与小样本学习：Lag-Llama 在未见过的数据集上展现了出色的零样本预测能力，且通过少量微调能够达到最先进的预测精度，优于之前的深度学习方法。
扩展性：模型还展示了良好的神经网络扩展性，即随着模型参数和训练数据集的规模增加，其性能不断提升，甚至可以进行外推预测。

5. 应用场景：

金融、能源和交通等领域可以利用 Lag-Llama 进行高效的时间序列预测，特别是需要处理不规则、动态变化的数据场景。模型在生成不确定性区间和进行决策时提供了更好的支持。

TimesFM

https://arxiv.org/pdf/2310.10688

论文《A Decoder-Only Foundation Model for Time-Series Forecasting》提出了一个基于Decoder-only架构的时间序列预测基础模型，名为TimesFM（Time-series Foundation Model）。这篇论文针对时间序列预测中的复杂性和高效性进行了深入探讨。以下是论文的详细总结：

1. 模型架构：

TimesFM 采用了Decoder-only的架构，基于Transformer模型进行构建。与传统的Transformer模型不同，它只使用解码器部分来进行时间序列预测。
输入块与输出块：模型将输入时间序列分割成不重叠的输入块（input patches），然后通过**残差块（Residual Block）**将这些输入块转化为向量，输入到Transformer层中进行处理。与输入块相比，**输出块（output patches）**可以更长，从而能够基于较短的历史数据预测较长时间段的未来。
遮掩策略：论文中提到，模型在训练时使用了一种随机遮掩策略，屏蔽部分输入块数据，以确保模型能够学习到不同长度的上下文关系。

2. 解决的问题：

零样本预测：TimesFM 不仅在处理常规时间序列预测任务时表现出色，还能实现零样本预测，即无需额外训练即可对新数据进行预测。这在金融、能源等动态变化频繁的场景中尤为重要。
长时预测：通过设计较长的输出块，模型可以基于较短的历史数据进行长时预测，从而减少自回归步骤的计算量。

3. 性能优势：

时间依赖性：TimesFM 通过自注意力机制，能够有效捕捉时间序列中的长期依赖关系，尤其在处理具有强趋势性、季节性或突发变化的时间序列时表现出色。
计算效率：模型通过减少自回归步骤来提升推理阶段的效率，尤其在长时间跨度的预测任务中具有显著的优势。

4. 训练与推理：

训练：模型通过最小二乘误差（MSE）作为损失函数进行训练，优化点预测任务。此外，模型能够支持概率预测，并可以通过不同的损失函数优化多个输出头，以实现更为精准的多头预测。
推理：在推理阶段，模型可以处理任意长度的时间序列，并能生成相应的未来预测。通过随机遮掩的输入处理，模型能够应对不同长度的上下文时间序列【83†source】。

5. 应用场景：

金融预测：TimesFM 能够处理大规模的金融数据，进行短期或长期的市场趋势预测。
能源需求预测：通过长时间跨度的预测能力，模型可用于能源市场中的电力需求、供应波动等预测任务。
交通流量预测：在交通领域，TimesFM 可以预测道路流量和交通模式变化，辅助交通管理。

TimeGPT-1

https://arxiv.org/pdf/2310.03589

1.模型架构：

在这里插入图片描述

TimeGPT-1 基于自注意力机制（self-attention），并使用编码器-解码器结构。输入历史时间序列数据，通过位置编码来捕捉时间依赖关系，输出未来的预测值。这个架构能够处理时间序列数据中的多样性，如季节性、趋势、异常等。
与传统的大型语言模型（LLMs）不同，TimeGPT-1 专为时间序列预测优化，具有极强的时间依赖特征提取能力。

2.训练数据：

TimeGPT-1 的训练数据涵盖超过1000亿个数据点，数据来自多个领域，包括金融、物联网、气象、医疗等。这种多样化的数据帮助模型学会应对各种时间序列特征和模式，如频率变化、趋势、噪声等。

3.性能与优势：

TimeGPT-1 在处理零样本学习方面表现出色，能够直接预测从未见过的时间序列数据，而无需进一步的训练。这使得它在处理稀疏数据或具有强动态变化的数据时，表现尤为优异。
它在与传统的统计学、机器学习和深度学习预测模型对比中，展现出显著的优势，特别是在预测准确性和泛化能力上。

4.不确定性量化：

TimeGPT-1 引入了保形预测（Conformal Prediction）技术，用于量化预测的不确定性。这一特性特别适用于需要风险评估的应用场景，如金融预测中的风险管理。

5.应用场景：

TimeGPT-1 适用于多个行业，如金融（股票预测、经济趋势分析）、医疗健康（病情趋势预测）、能源（需求预测）、交通（车辆流量预测）等。这些领域中，准确预测未来数据对于提高决策的效率至关重要。

盘古大模型 (Pangu-Alpha)

1.研发团队：

由华为云和其昇腾AI团队开发，是中国首个商用的超大规模预训练模型

2.模型架构：

盘古大模型是基于Transformer架构构建的，模型的设计参考了 GPT-3 等语言模型的结构，但在细节上进行了优化，尤其是针对时间序列预测的特殊性进行了调整。它采用了分层的架构设计，分为浅层模型和深层模型，用于处理不同类型的任务和复杂性。
盘古模型的架构灵活，可支持多模态数据处理，在时间序列预测中，它能够结合序列的历史信息来捕捉长期依赖性。通过自注意力机制，模型能够在序列的多个时间点之间建立依赖关系，特别适合处理金融和物联网等领域的复杂时序数据。

3.训练数据与规模：

模型使用了大量多样化的时间序列数据进行预训练，涵盖金融、医疗、物联网等多个领域。Pangu-Alpha NLP版本参数量为2000亿，也是全球规模最大的中文语言模型之一。

4.性能与优势：

在多个领域的时间序列任务上展示出强大的零样本预测能力，能够在没有微调的情况下处理复杂的时间序列任务。

5.应用场景：

金融预测：例如股票市场预测、宏观经济趋势分析。
气象预报：短期和长期天气趋势预测。
工业制造：生产监控和设备预测性维护。

ForecastPFN

https://arxiv.org/pdf/2311.01933

ForecastPFN是一个旨在解决零样本时间序列预测问题的模型。它通过在预定趋势和季节性生成的合成数据上进行训练，来分析未来数据趋势。以下是关于ForecastPFN模型的详细介绍：

1.模型架构：

ForecastPFN是基于先验数据拟合网络（PFN），训练以近似贝叶斯推理，可以在一次前向传递中对新的时间序列数据集进行预测。

2.训练数据和规模：

在这里插入图片描述

ForecastPFN在合成数据上进行训练，这些合成数据是基于预定趋势和季节性生成的，而不是基于真实世界的数据。

3.性能和优势：

ForecastPFN的优势在于它能够在没有特定数据集训练数据的情况下，对一个全新的数据集进行预测，即所谓的零样本预测。
它在零样本预测方面表现出色，即使与其他在数百个额外的分布内数据点上进行训练的方法相比，ForecastPFN在准确性和速度上也具有优势。

4.应用场景：

尽管没有具体的应用场景描述，但ForecastPFN的零样本预测能力使其适用于在只有很少初始观测值的情况下进行时间序列预测，如金融分析、气象预测、库存管理等领域。

时序大模型，其结构、模型特点、支持应用场景等重点特征如下：

名称	Timer	Moirai	MOMENT	Chronos	Lag-LLama	TimesFM	TimeGPT-1	ForecastPFN	盘古
基础结构	Decoder	Encoder	Encoder Decoder	Encoder Decoder	Decoder	Decoder	Encoder Decoder	Decoder	Encoder Decoder
模型大小	29M, 50M, 67M	14M, 91M, 311M	40M, 25M, 385M	20M, 46M, 200M, 710M	200M	17M, 70M, 200M	未公开	未公开	未公开
是否开源	是	是	是	是	是	是	否	否	是
下游任务	预测、填补、异常检测	预测	预测、分类、异常检测	预测	预测	预测	预测、异常检测	预测	预测
预训练范围	28B	27.65B	1.13B	84B	0.36B	100B	100B	未公开	未公开
单次推理长度	多步	多步	多步	单点	单点	多步	多步	多步	多步
上下文序列长度	≤1440	≤5000	=512	≤512	≤1024	≤512	未公开	未公开	未公开
是否支持可变长度	是	是	否	是	是	是	是	是	是

引用：https://www.timecho.com/archives/31