【论文阅读】AutoTimes: Autoregressive Time Series Forecasters via Large Language Models

本文介绍了一种新的方法AutoTimes,它利用大型语言模型(LLM)作为自回归时间序列预测器,通过保持参数不变,处理不同长度的序列并实现与主流模型竞争的性能。文中提出了token-wiseprompting技术,有效处理多模式场景。实验结果显示,AutoTimes在长期和短期预测任务中表现出色,尤其在无需调整回溯长度的情况下超越了其他方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

AutoTimes: Autoregressive Time Series Forecasters via Large Language Models

引用: Liu Y, Qin G, Huang X, et al. AutoTimes: Autoregressive Time Series Forecasters via Large Language Models[J]. arXiv preprint arXiv:2402.02370, 2024.

论文链接: [2402.02370] AutoTimes: Autoregressive Time Series Forecasters via Large Language Models

代码链接: https://github.com/thuml/AutoTimes

简介

由于大规模时间序列的可用性有限以及可扩展预训练的开发不足,时间序列的基础模型尚未完全开发。基于时间序列和自然语言的相似序列结构,越来越多的研究证明了利用大型语言模型(LLM)处理时间序列的可行性。然而,现有的方法可能会忽视时间序列和自然语言的一致性,导致LLM潜力的利用不足。为了充分利用从语言建模中学习到的通用token转换,提出了AutoTimes将LLM重新用作自回归时间序列预测器,这与LLM的获取和使用一致,而不更新参数。因此,预测者可以处理灵活的序列长度,并作为主流模型实现有竞争力的性能。此外,提出了token-wise prompting,利用相应的时间戳使提出的方法适用于多模式场景

与基于马尔可夫假设的语言建模类似,自回归模型的本质在于不变转换。AutoTimes确保了充分振兴LLM能力的一致性,以产生自回归预测作为时间序列的基础模型。这种一致性包括:

(1)训练和推理:采用与LLM获取一致的训练目标,即下一个token预测,以建立包含局部序列变化的时间序列段的token化。在推理过程中,利用可变上下文长度和LLM的自回归生成来处理任意序列长度;

(2) 参数:利用LLM的token转换,通过在大量文本语料库上进行训练将其参数化,并将其应用于时间序列token。从技术上讲,冻结了重新调整用途的LLM的Transformer层,并建立了时间序列的token化器和去token化器,占总参数的0.1%。除了提高自适应效率外,它还旨在实现时间序列的同胚嵌入,可以在令牌级别与文本无缝混合。在此基础上,引入了token-wise prompting,它利用了时间序列的相关文本锚时间戳来进一步增强预测。虽然之前的顺序提示连接不同的模式可能会导致过度的序列长度和标记差异,但预测器通过token提示和上下文学习,可以将指导性文本和时间序列用于更广泛的预测场景

Method

在这里插入图片描述

所提出的AutoTimes方法将大型语言模型重新用于多变量时间序列预测。给定具有 L L L 个时间步长和 C C C 个变量的回顾观测 x 1 : L = { x 1 , … , x L } ∈ R L × C x _ { 1 : L } = \left\{ x _ { 1 } , \ldots , x _ { L } \right\} \in R ^ { L \times C } x1:L={x1,,xL}RL×C,目标是预测未来的 F F F 个时间步长 X L + 1 : L + F = { x L + 1 , … , x L + F } ∈ R F × C X _ {L + 1 : L + F} = \left\{ x _ { L + 1 } , \ldots , x _ { L + F } \right\} \in R ^ { F \times C } XL+1:L+F={xL+1,,xL+F}RF×C 。此外,协变量作为辅助指令可以用于预测,分为动态和静态两类。考虑到一般的预测场景,假设最常见的动态协变量,时间戳 a t a_t at 与同时的多变量时间点 $x_t \in R^C $ 对齐。将时间戳保留为文本,而不是数字编码。任务是学习预测器 f f f ,该预测器用长度 L L L 的回溯序列预测长度为 F F F 的序列:

f : ( x 1 : L , a 1 : L + F ) → X ^ L + 1 : L + F f : ( x _ { 1 : L } , a _ { 1 : L + F } ) \rightarrow \widehat { X } _ { L + 1 : L + F } f:(x1:L,a1:L+F)X L+1:L+F

模态对齐

Time series tokenization:为了使预测器能够处理任意长度的时间序列,将自回归生成样式重新引入到时间序列预测中。在此之前,将时间序列标记定义为段,即一个变量的连续时间点,它扩大了局部感受野以包含序列变化,并减轻了步数过多的自回归。通过对单变量回溯窗口进行采样来独立地考虑每个变量。它使预测器更加关注时间变化建模,并通过对齐时间戳来发现同时的时间点的多变量相关性。因此,将 x t x_t xt 简化为特定变量 x t ∈ R x_t \in R xtR 的时间点,因此长度为 S S S 的第 i i i 个token表示为:

s i = { x ( i − 1 ) S + 1 , … , x i S } s _ { i } = \left\{ x _ { ( i - 1 ) S + 1 } , \ldots , x _ { i S } \right\} si={x(i1)S+1,,xiS}

为了充分利用在预训练期间学到的 LLM 的token标记转换,通过建立 SeriesTokenizer(·) : R S → R D R^S \rightarrow R^D RSRD 将时间序列段与语言标记对齐,以将每个段投影到大型语言模型的同一嵌入空间中:

S E i = S e r i e s T o k e n i z e r ( s i ) S E _ { i } = S e r i e s T o k e n i z e r ( s _ { i } ) SEi=SeriesTokenizer(si)

其中 D D D 与重新利用的 LLM 维度一致。

在这里插入图片描述

Token-wise prompting:由于时间序列的文本协变量通常记录在每个时间戳处,因此在以前的工作中按顺序提示可能导致语言提示过长,阻碍大型语言模型关注系列标记,导致耗时的转发。考虑到语言和时间序列共享的顺序公式,在相应的时间序列段内聚合文本协变量

s p i = P r o m p t ( { a ( i − 1 ) S + 1 , ⋯   , a i S } ) s p _ { i } = P r o m p t ( \left\{ a _ { ( i - 1 ) S + 1 } , \cdots , a _ { i S } \right\} ) spi=Prompt({a(i1)S+1,,aiS})

然后使用顺序序列-文本对 { ( s i , s p i ) (s_i , sp_i ) (si,spi)} 来获取混合标记的嵌入,享受大型语言模型的固有过渡。提示模板 Prompt(·) 如图 3 所示,它默认由开始和结束时间戳组成。简单的提示可以提高预测性能,帮助 LLM 了解季节性模式并在通道独立性下对齐不同的变量。为了获得一个感知可变长度的token提示的嵌入,在 提示的末尾添加一个特殊的token。由于所有先前的标记在整个因果注意力中对特殊token都是可见的,因此选择 嵌入 作为 T E i ∈ R D TE_i \in R^D TEiRD 在一个段内整合文本协变量:

T E i = S e l e c t L a s t ( L L M ( { s p i ; < E O S > } ) ) T E _ { i } = S e l e c t L a s t ( L L M ( \left\{ s p _ { i } ; < E O S > \right\} ) ) TEi=SelectLast(LLM({spi;<EOS>}))

值得注意的是嵌入 T E i TE_i TEi 的文本可以由 LLM 预先计算,如果提供了可选的描述,则可组合。得益于时间序列段的同构对齐,文本嵌入 T E i TE_i TEi 可以相应地与序列嵌入 S E i SE_i SEi 集成。嵌入 E i ∈ R D E_i \in R^D EiRD 是文本和序列嵌入的总和,其中 $TE_i $ 作为 LLM 的位置嵌入,具有丰富的时间序列的周期和采样信息:

E i = S E i + T E i E _ { i } = S E _ { i } + T E _ { i } Ei=SEi+TEi

下一个token预测

LLM 可以基于之前的token s < i s_{< i} s<i 自回归预测目标token s i s_i si ,因此将LLM重新用作预测器,并以完全一致的方法完成预测。给定token数量 N N N ,其中上下文长度 N S NS NS 的时间序列被标记化并嵌入到 $ N$ 个标记嵌入 { E 1 , . . . , E N E_1, . . . ,E_N E1,...,EN} 中,目的是通过 LLM 独立预测下一个标记 { s ^ 2 , … , s ^ N + 1 \widehat { s } _ { 2 } , \ldots , \widehat { s } _ { N + 1 } s 2,,s N+1 } 。为了利用在预训练期间学到的学习语言建模过渡,在保持 LLM 冻结的同时为嵌入提供内容

{ E ^ 2 , … , E ^ N + 1 } = L L M L a y e r s ( { E 1 , … , E N } ) \left\{ \widehat { E } _ { 2 } , \ldots , \widehat { E } _ { N + 1 } \right\} = L L M L a y e r s ( \left\{ E _ { 1 } , \ldots , E _ { N } \right\} ) {E 2,,E N+1}=LLMLayers({E1,,EN})

S e r i e s D e t o k e n i z e r ( . ) : R D → R S SeriesDetokenizer(.): R^D → R^S SeriesDetokenizer(.):RDRS 将获得的每个嵌入投影回时间序列段,作为

s i ^ = S e r i e s D e t o k e n i z e r ( E ^ i ) \widehat { s _ { i } } = S e r i e s D e t o k e n i z e r ( \widehat { E } _ { i } ) si =SeriesDetokenizer(E i)

最后,每个预测片段都由ground truth独立监督,以优化新建立的时间序列标记器和去标记器的参数,这两个参数都由多层感知器实现:

C M S E = 1 N S ∑ ∣ ∣ s i − s ^ i ∣ ∣ 2 2 , i ∈ { 2 , … , N + 1 } C _ { M S E } = \frac { 1 } { N S } \sum | | s _ { i } - \widehat { s } _ { i } | | ^ { 2 } _ { 2 } , i \in \left\{ 2 , \ldots , N + 1 \right\} CMSE=NS1∣∣sis i22,i{2,,N+1}

通过采用相同的生成目标,重新利用的预测器表现出与 LLM 相似的属性,例如由 RoPE 授权的灵活上下文长度以及token生成的自回归风格:

S i ^ = L L M F o r e c a s t e r ( s < i ) , i ∈ { 1 , … , F S } \widehat { S _ { i } } = L L M F o r e c a s t e r ( s < i ) , i \in \left\{ 1 , \ldots , \frac { F } { S } \right\} Si =LLMForecaster(s<i),i{1,,SF}

实验

对于长期时间序列预测,在实验中广泛包括真实世界的数据集,包括 iTransformer 使用的 ETTh1、ECL、Traffic、Weather和Solar-Energy。对于短期预测,评估了公认的 M4 competition的表现。

在这里插入图片描述
在这里插入图片描述

平均结果如表 2-3 所示,最佳结果以粗体显示,次佳结果以下划线显示。AutoTimes在长期情景中表现出有竞争力的性能,在60%的预测设置中超越了最先进的LLM4TS方法和深度预测器,而无需调整回溯长度,并且在表3中的短期预测中始终优于所有同行。值得注意的是,AutoTimes是唯一一种通过自回归生成来训练单个模型来应对可变预测长度的方法,而所有其他预测器都需要分别对不同的长度进行训练,并作为刚性预测长度的稳定函数工作。培训预报员花费高昂的时间和资源,以及序列长度的不灵活性,都可能成为实际部署的主要障碍。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

煌澄艾

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值