Multi-task Learning Method for Hierarchical Time Series Forecasting
Yang M , Hu Q , Wang Y . Multi-task Learning Method for Hierarchical Time Series Forecasting[M]// Artificial Neural Networks and Machine Learning – ICANN 2019: Text and Time Series. 2019.
这篇文章基于多任务学习,提出了一种新的集成层次预测的模型。
首先解释一下什么是层次时间序列:
下图更为直观:
motivation
一般而言,层次时间序列预测的实现方法是“两步方法”:首先独立预测所有的时间序列,然后对结果进行协调,满足聚合一致性。这种方法的问题:1.高的计算复杂度(因为对每一个单独预测的时间序列都需要去进行拟合),2.无法确保所有时间序列取得最佳的预测结果。
利用多任务学习的优点,构建了一个集成模型:结合了底层序列的特征 and 层级结构。
该模型特点:1.同时输出所有时间序列的预测,并进行一致汇总;2.利用时间序列之间的相关性;3.通过全局损失函数,实现预测结果总体上最佳
主要贡献
- 基于多任务学习,提出了一种新型集成层次预测模型, 预测结果满足聚集一致性并且总体上是最佳的。
- 通过在模型的两部分上施加不同的正则化来学习稀疏模型。
- 在数值模拟和真实数据上进行实验,都取得了更好的整体性能。
形式定义
y
t
:
n
y_t:n
yt:n维行向量,t时刻所有观测到的时间序列,
b
t
:
m
b_t:m
bt:m维行向量,所有观测到的底层的时间序列,
a
t
:
l
a_t:l
at:l维行向量,所有整合的时间序列。
可以得出关系如下:
根据图1的结构可以得到S如下:
通过这个矩阵相乘关系可以同时获得所有时间序列。
两个模型
MHFM(multi-task hierarchical forecasting model)
- 将底层的所有时间系列的特征提取到整个输入特征空间中;
- 将层次结构整合到模型中;
- 通过优化全局目标函数,实现同时预测所有的时间序列并实现整体预测最优。
公式如下:
第 i i i个时间序列的预测模型:
解析解:
多任务分层预测模型:
目标函数:
求解W:
DMHFM(dirty multi-task hierarchical forecasting model)
随着层次中的时间序列数量的增加,很容易陷入维度爆炸,所以学习数据的基础结构(如:稀疏性、低秩结构等)有助于提高模型的准确性并使其更可靠,所以提出了DMHFM:
- 组稀疏性分量:
采用 l 1 , ∞ − n o r m l_{1,\infty}-norm l1,∞−norm正则化实现联合特征选择(P) - 元素级稀疏性分量:
采用 l 1 − n o r m l_1-norm l1−norm正则化保持每个序列的唯一性(Q)
公式如下:
组稀疏性分量:
∣
∣
P
∣
∣
1
,
∞
=
∑
i
∣
∣
P
i
∣
∣
∞
=
max
j
∣
P
0
,
j
∣
+
max
j
∣
P
1
,
j
∣
+
.
.
.
+
max
j
∣
P
i
,
j
∣
||P||_{1,\infty}=\sum_{i}||P_i||_\infty=\max_j|P_{0,j}|+\max_j|P_{1,j}|+...+\max_j|P_{i,j}|
∣∣P∣∣1,∞=i∑∣∣Pi∣∣∞=jmax∣P0,j∣+jmax∣P1,j∣+...+jmax∣Pi,j∣每一行元素中绝对值最大的和。
元素级稀疏性分量:
∣
∣
Q
∣
∣
1
,
1
=
∑
i
∣
∣
Q
i
∣
∣
1
=
∣
Q
0
,
0
∣
+
∣
Q
0
,
1
∣
+
.
.
.
+
∣
Q
0
,
j
∣
+
.
.
.
+
+
∣
Q
i
,
1
∣
+
.
.
.
+
∣
Q
i
,
j
∣
||Q||_{1,1}=\sum_{i}||Q_i||_1=|Q_{0,0}|+|Q_{0,1}|+...+|Q_{0,j}|+...++|Q_{i,1}|+...+|Q_{i,j}|
∣∣Q∣∣1,1=i∑∣∣Qi∣∣1=∣Q0,0∣+∣Q0,1∣+...+∣Q0,j∣+...++∣Qi,1∣+...+∣Qi,j∣所有元素的绝对值之和。
采用accelerated gradient methods(AGM)方法进行优化。
实验
评价指标:ARMSE
进行了两个实验:1.数值模拟,2.旅游预测实验
都证明了提出的方法的有效性。
更多细节大家可以阅读原文~