LLM4TS文献阅读:One Fits All:Power General Time Series Analysis by Pretrained LM

Abstract

虽然我们已经目睹了预训练模型在自然语言处理(NLP)和计算机视觉(CV)方面的巨大成功,但在一般时间序列分析方面取得的进展有限。与NLP和CV中的统一模型可以执行不同的任务不同,特殊设计的方法在每个时间序列分析任务中仍然占主导地位,如分类、异常检测、预测和少镜头学习。阻碍对时间序列分析的预训练模型的开发的主要挑战是缺乏大量的训练数据。在这项工作中,我们通过利用语言或CV模型来解决这一挑战,这些模型从数十亿个标记中预先训练出来,以进行时间序列分析。具体来说,我们避免改变预先训练好的语言或图像模型中的残差块的自注意层和前馈层。这个模型被称为冻结预训练变压器(FPT),是通过对涉及时间序列的所有主要任务类型的微调来评估的。我们的结果表明,在自然语言或图像上的预先训练的模型可以在所有主要的时间序列分析中导致可比的或最先进的性能

模型:

冷冻预训练块 我们的体系结构保留了预训练模型中的位置嵌入层和自我注意块。由于自我注意层和FFN(前馈神经网络)包含了从预先训练过的语言模型中学习到的大部分知识,我们选择在微调时冻结自我注意块。

Positional Embeddings and Layer Normalization 位置嵌入和图层规范化 为了以最小的努力增强下游任务,我们微调了位置嵌入和层标准化层,这被认为是一个标准实践lu等人(2022);Houlsby等人(2019)。因此,我们在微调过程中对这些组件进行了再训练

Input Embedding 鉴于我们的目标是将NLP预训练模型应用于各种任务和一种新的模态,我们必须重新设计和训练输入嵌入层。这一层负责将时间序列数据投影到特定的预训练模型的所需维度上。为了实现这一点,我们使用了线性探测(nn.linear),这也减少了训练所需的参数的数量。

Normalization 数据规范化对于跨各种模式的预训练模型是至关重要的。除了在预先训练过的LM中使用的层范数外,我们还加入了一个简单的数据归一化块,反向实例范数Kim等人(2022),以进一步促进知识转移。这个归一化块简单地使用均值和方差规范化输入时间序列,然后将它们添加到输出中。

Patching 为了提取局部语义信息,我们利用补丁Nie et al.(2022),通过聚合相邻的时间步长,形成一个单一的基于补丁的令牌。修补程序可以显著增加输入的历史时间范围,同时保持相同的令牌长度,并减少变压器模型的信息冗余。在我们的体系结构中,我们在实例规范化之后应用补丁。

(2023 NIPS)One Fits All: Power General Time Series Analysis by Pretrained LM - 知乎

  • 7
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值