文章目录
前沿
深度学习方法用于时间序列预测,如销量预测等,在某些情况下已经能超越基于统计的方法/机器学习方法,相对而言,深度学习方法可以简化特称抽取的过程。
本文介绍2020年的一篇论文。TFT:Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting
TFT关键点
- Multi-horizon: 多视界,即多步预测。
- LSTM: seq2seq生成中间的时间序列特征。
- Self-Attention: 融合时间序列上的特征。单层、可解释的Multi-head Attention。
- Quantile Loss: 分位损失,预测多个分位的结果。
三类输入
- static input: 不随时间改变的静态属性,如商品的类别、功效等。
- observed input: 在过去时间节点上观察到的信息,如当天浏览量、当天油价、当天天气等。
- known input: 在所有时间节点上(过去/将来)可知的信息,如过去/将来的价格,过去/将来的营销计划等。
可解释的Multi-head Attention
预测任务往往需要对输入特征对结果的影响程度进行排序,通常经过多层变换的Multi-head Attention难以提供这种可解释性。因此,论文设计了一个单层的Multi-head Attention层。
可以看到多个Head都是Attend to相同的Value,最后加总平均一下而已,并没有像原本的MHA对Value划分不同的子空间。(感觉这样的“多头”的意义不大?)
实验结果
相关论文
《DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks》
使用LSTM encoder-decoder结构,超越传统的统计机器学习方法。
《From Known to Unknown: Knowledge-guided Transformer for Time-Series Sales Forecasting in Alibaba》
使用Transformer的encoder-decoder结构,引入未来知识,相当于TFT的将来known input。
参考文献
- DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks, https://arxiv.org/abs/1704.04110
- From Known to Unknown: Knowledge-guided Transformer for Time-Series Sales Forecasting in Alibaba, https://arxiv.org/abs/2109.08381
- Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting, https://arxiv.org/abs/1912.09363