timeseries forecast
有些文章,需要科学上网
1.introduction
综述:
https://otexts.com/fpp3/what-can-be-forecast.html
Robust Time Series Analysis and Applications An Industrial Perspective | KDD 2022 Tutorial Qingsong Wen, Linxiao Yang, Tian Zhou, and Liang Sun
retail sales
https://www.vldb.org/pvldb/vol10/p1694-schelter.pdf
https://hub.hku.hk/bitstream/10722/45458/1/122119.pdf?accept=1、
missing data umputation
The Interpolation of Time Series by Related Series on JSTOR
…
详细看:文章One Fits All: Power General Time Series Analysis by Pretrained LM
时序数据:小于10GB[2105.06643] Monash Time Series Forecasting Archive
语言模型(LM)的训练数据多,可以训练大模型。用预训练的大语言模型,去做时序的下游任务。不仅能解决时序任务,数据量不够(甚至有时候没有标签数据)的问题。还能为时序的各种下游任务提供一个统一的框架,而不像之前那样,每个下游任务都要做定制化的设计。
self-attention模块经过(语言数据)预训练后,在没有(时序)数据的形况下,也能有很不错的表现。归因于self-attention与pca的“相关性”。泛化性
2.related work
分为模态内迁移学习与模态间迁移学习
通过预训练进行模态内的迁移学习
NLP领域最近聚焦于在下游任务中。上下文的词嵌入。
bert使用transformer编码器,并采用掩码语言建模任务,旨在恢复文本中随机遮蔽的tokens。
chatgpt在大语料集中训练transformer编码器并在特定任务数据集上进行微调。
gpt2 :在更大的数据集上训练更多的参数,并且可以迁移到各种各样的下游任务上。
因为transformer的输入格式是很灵活的,对应的使用transformer预训练得到的模型也天然的可以适用各种各样(包括视觉)的任务。
DEiT:教师-学生策略,cnn做教师模式
BEit:把图像变为视觉的tokens,将bert应用到CV领域。
但timseries领域的训练数据还是太少,所以做的还是少。
跨模态的迁移学习
由于transformer输入的适应性,所以在不同领域的迁移学习也是个有趣的方向。
VLMo是CV领域的预训练模型,分阶段预训练策略,利用图像数据预训练冻结注意力模块,来训练语言专家。
Lu,研究了与从其他领域数据中学习到的端到端的transformer相比,冻结的预训练模型的强大性能。
Voice2series用语言处理模型做时序分类。
3.methodology
3.1 structure
frozen pretrained block ==> self-attention layers and FFN
子注意力层和前馈层可以保留大部分学习到的知识,所以在微调的时候,冻结这部分
positional embeddings and layer normalization ==> adopt to downstream tasks
为了适应不同的下游任务,位置编码和层间的标准化,可以参与微调。
input embedding == > cross the domain (modify the interface)
我们使用的预训练模型是语言模型,语言数据和时序数据是不一样的。所以需要修改输入的embedding让其符合模型的维度要求。
Normalazation
除了层标准化,还使用了数据标准化,反向实例标准
patching ==> optimize
通过聚合临近的时间步,来形成一个基于patch的token,从而提取局部的信息。这样可以明显增加每次输入的历史时间范围,但token的长度是不变的。
4.实验
时序分类,异常检测,缺失数据填补,长短时序预测,少样本或零样本预测。
baseline:
基于CNN的模型:TimesNet,
基于MLP的模型:LightsTS, DLinear
基于Transformer的模型:Refomer,Informer Autoformer,FEDformer, Non-stationary Transformer,ETSformer,PatchTST,
短期预测:N-HiTS N-BEATS
异常检测:Anomaly Transformer
分类:XGBoost Rocket, LSTNet, LSSL Pyraformer, TCN, Flowformer
5.Cost
6.self-attention connect PCA
数学公式看不懂
能看到实验,两个效果很像