背景介绍
- 时间序列预测与其他序列建模问题(如文本、音频或视频)类似,但有两个特别的挑战。不同于视频或音频通常具有一致的输入规模和采样率,聚合的时间序列数据集通常包含来自截然不同来源的序列,有时还包含缺失值。
- 时间序列预测的常见应用,如天气或金融数据,需要从只含有一小部分可能信息的观察结果中进行外推,这使得精确的点预测几乎不可能,并使得不确定性估计尤为重要。
- 尽管大规模预训练已成为训练大型视觉和文本神经网络的关键元素,使得性能可以直接随数据可用性扩展,但预训练通常不用于时间序列建模,在这一领域中,没有共识的无监督学习目标,且大型、统一的预训练数据集并不容易获得。
- 因此,在流行的基准测试中,简单的时间序列方法(如ARIMA和线性模型)通常会胜过深度学习方法。
- 在本文中,我们展示了大型语言模型(LLM)如何自然地弥合传统方法的简单偏见与现代深度学习的复杂表征学习和生成能力之间的差距。
- 我们引入了一种极其简单的方法LLMTIME2,将预训练的LLMs应用于连续时间序列预测问题,如图1所示。该方法的核心是将时间序列表示为数字串,并将时间序列预测视为文本中的下一个标记预测,从而开启了使用大型预训练模型的可能性。
相关工作
时间序列数据通常与语言模型数据的形式非常相似,都是由一系列的序列构成。但时间序列中的 是数值型数据。由于语言模型旨在表示序列上复杂的概率分布,从理论上讲,它们非常适合于时间序列建模。然而,在实践中,将语言模型应用于数值数据时会受到数字标记化(tokenizing)细节的限制。字节对编码(Byte Pair Encoding, BPE)