一、摘要
本文介绍谷歌团队发表于2023年的论文《A decoder-only foundation model for time-series forecasting》
译文:
受自然语言处理(NLP)中大型语言模型最新进展的启发,我们设计了一种用于预测的时间序列基础模型,其在各种公共数据集上的开箱即用零样本性能接近于每个单独数据集的最先进监督预测模型的准确性。我们的模型基于预训练一个带有输入分片的解码器风格注意力模型,使用一个包含真实世界和合成数据集的大型时间序列语料库。在一组多样化的先前未见过的预测数据集上的实验表明,该模型可以在不同领域、预测范围和时间粒度上产生准确的零样本预测。
二、核心创新点
作者指出,时间序列预测的基础模型应当能够适应可变的上下文和预测范围长度,同时具有足够的容量来编码来自大型预训练数据集的所有模式。因此,作者采用了经过实践验证的Transformer架构作为基础,并加入了几个特定于时间序列的设计选择:
- 分片(patching):在训练期间,作者将时间序列分解为一个个的patch。由于输入到Transformer中的Token数量被patch长度的因子减小了,使得推理速度得到了提升。
- 仅解码器模型(Decoder-only):论文中的模型以仅解码器的模式进行训练。给定一系列的输入patches,经过优化之后,模型可以根据所有过去的patch来预测下一个patch。
- 更长的输出patch:作者允许用于预测的输出patch比输入的patch更长。例如,假设当前输入patch长度为32