[阅读笔记]2023NIPS LLMTime进行零样本时序预测

论文链接:https://arxiv.org/abs/2310.07820
模型部署:click here
在这里插入图片描述
通过将时间序列编码为一串数字,可以将时间序列预测框架为文本中的下一个标记预测。论文发现像GPT-3和LLaMA-2这样的LLM可以零样本推时间序列,其水平持平或超过在下游任务上训练的专用时间序列模型的性能。
该论文还提出了有效地标记时间序列数据并将标记上的离散分布转换为连续值上的高度灵活密度的过程。论文还展示了llm如何自然地处理缺失的数据,而无需通过非数字文本进行输入,适应文本侧信息,并回答问题以帮助解释预测。
有意思的是,论文发现GPT-4的性能比GPT-3差。

模型

LLMTIME2
一个非常简单的方法来应用预训练llm连续时间序列预测问题:
在这里插入图片描述
Tokenization
在这里插入图片描述
这里使用的标记方法是用空格分隔每个数字,通过将每个数字视为单独的标记,可以帮助GPT模型更好地管理数字。
然而,这种技术对像LLaMA这样的模型有不同的影响,由于每个空格和数字被视为不同的令牌,它可能会增加不必要的复杂性。
在这里插入图片描述
Continuous likelihoods
通过对数字序列进行标记并分层处理,模型可以以一种可分解的方式表示连续变量。每个数字序列都映射到预定义范围内的bin,并使用softmax函数分配概率。
该方法可以实现连续分布的高分辨率建模,有效地处理大规模数据,并且可能优于高斯混合模型(GMMs)等传统方法。
在这里插入图片描述
Language models as flexible distributions
这些模型提供了一个更灵活和更有能力的替代传统方法,如高斯或拉普拉斯模型和高斯混合模型(GMMs)。

通过使用在不同分布上训练的语言模型,它在预测中表现出更好的性能,正如对MonthlyMilk数据集的实验所证明的那样。

创新点

- 以零样本的方式超过或匹配专用的方法

零预测是可能的,因为:llm可以有效地预测,因为他们倾向于从简单规则中得出结论。

llm对重复序列的偏好使他们能够识别和推断输入中的周期性结构。
在这里插入图片描述

- 不需要对下游数据进行微调

实验

通过将LLMTIME与GPT-3和LLaMA-2 70B在各种基准时间序列数据集上与许多流行的时间序列基线进行比较,论文评估了llm的零样本预测能力。
LLMTIME不仅能够生成真实时间序列和合成时间序列的合理完井,而且在评估中,它比ARIMA、tcn和N-HiTS等专用时间序列模型获得更高的似然和CRPS值。当在MAE等确定性指标上进行评估时,llm也表现良好,在每个基准上获得最佳或次优MAE值。
在这里插入图片描述
对于一些较长的时间序列,并不是所有的历史都能适应上下文窗口,因此超参数隐含地捕获更高精度和捕获更大时间历史之间的权衡。

结果

时间序列预测性能随着底层模型LLM的推理性能的提高而提高,这是通过大规模多任务语言理解基准的准确性来判断的。
在这里插入图片描述
我们可以发现GPT-4的表现比GPT-3差。

一般来说,预测绩效似乎受到校准程序的负面影响。LLaMA-2聊天模型通常比相应的基本模型表现得更差。

一些讨论

这个模型可以在许多任务和模式之间泛化。

零样本预测可以实现广泛的引人注目的性能,而不需要大量的计算资源、领域知识或许多下游训练数据点。

虽然LLM预测者受益于预训练变压器的优势,但他们也继承了它们的弱点。

使用当前llm架构的另一个潜在挑战可能是它们在算术和执行递归和组合操作方面的弱点。

另一方面,许多时间序列不需要精确的算术。撇开任何限制不谈,研究在时间序列上微调llm的有效程序也是有希望的。

  • 7
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值