论文笔记：DEPTS: Deep Expansion Learning for Periodic Time Series Forecasting

最新推荐文章于 2024-08-08 20:58:46 发布

S.Z.Zheng

最新推荐文章于 2024-08-08 20:58:46 发布

阅读量732

点赞数 2

分类专栏：论文笔记人工智能文章标签：论文阅读算法神经网络深度学习数据挖掘

本文链接：https://blog.csdn.net/szzheng/article/details/126955602

版权

论文笔记同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

人工智能

2 篇文章 0 订阅

订阅专栏

DEPTS: Deep Expansion Learning for Periodic Time Series Forecasting

文章目录

DEPTS: Deep Expansion Learning for Periodic Time Series Forecasting

现有研究中遇到的问题

目前周期性时间序列 (PTS) 预测存在两大阻碍：

复杂周期依赖性 (complicated periodic dependencies)：时间序列信号对相邻历史数据和固有周期性由复杂依赖现象；而现有的研究多忽略了信号的周期性，或是仅用一些简单的模型建模
多周期叠加性 (diversiﬁed periodic compositions)：真实世界的时间序列多由多个振幅、频率不同的周期性信号叠加而来，现有研究多要求在确定参数前，事先确定周期长度

本文提出的DEPTS模型就是为了解决这两个问题而设计的。

DEPTS模型

解耦公式

$\mathbf x_{t:t+H} = f_\theta(\mathbf x_{t-L:t},\mathbf z_{t-L:t+H})+\mathbf{\epsilon}_{t:t+H},\quad z_t = g_\phi(t) \tag{3}$

其中：

$z_t \in \mathbb R^1$ ：标量（与单变量时间序列中的 $x_t$ 保持一致）
$\mathbf{\epsilon}_{t:t+H} = [\epsilon_t,\cdots,\epsilon_{t+H-1}]$ ：iid高斯噪声矢量
扩展模块 $f_\theta:\R^L \times \R ^{L+H} \rightarrow \R^H$ ：用来建模未来信号 $\mathbf x_{t:t+H}$ 对观测值 $\mathbf x_{t-L:t}$ 以及相应的周期状态 $\mathbf z_{t-L:t+H}$ 的复杂依赖性
周期模块 $g_\phi:\R^1 \to \R^1$ ：用来产生时刻 $t$ 的周期状态 $z_t$

扩展模块 $f_\theta$

残差分支

$f_\theta$ 共包含 $N$ 层。对于其中的第 $\ell$ 层，有3个残差分支：

$\mathbf x^{(\ell)}_{t-L:t}$ ： $\mathbf x_{t-L:t}$ 经过 $\ell$ 层扩展后的残差项
$\mathbf z^{(\ell)}_{t-L:t+H}$ ： $\mathbf z_{t-L:t+H}$ 经过 $\ell$ 层扩展后的残差项
$\hat{\mathbf x}^{(\ell)}_{t:t+H}$ ： $\ell$ 层过后的累计预测值

这3个残差分支由2个参数化块指定：

局部块 $f_{\theta_l(\ell)}^l$ （其中 $\theta_l(\ell)$ 为对应的参数）
周期块 $f^p_{\theta_p(\ell)}$ （其中 $\theta_p(\ell)$ 为对应的参数）

扩展模块的设计

初始化

$\mathbf x^{(0)}_{t-L:t}=\mathbf x_{t-L:t}$
$\mathbf z^{(0)}_{t-L:t+H}=\mathbf z_{t-L:t+H}$
$\hat{\mathbf{x}}_{t: t+H}^{(0)}=\mathbf 0$

周期状态的更新

将上一层的周期状态 $\mathbf z^{(\ell-1)}_{t-L:t+H}$ 输入周期块 $f^p_{\theta_p(\ell)}$ ，得到周期状态的第 $\ell$ 个扩展项 $\mathbf v^{(\ell)}_{t-L:t+H}$
$\mathbf v^{(\ell)}_{t-L:t+H}$ 分为两部分：
- 回看分量 $\mathbf v^{(\ell)}_{t-L:t}$ ：通过 $\left(\mathbf x^{(\ell-1)}_{t-L:t} - \mathbf v^{(\ell)}_{t-L:t}\right)$ ，移除观测值中的周期效应，并送入局部块 $f^p_{\theta_p(\ell)}$ 中
- 预测分量 $\mathbf v^{(\ell)}_{t:t+H}$ ：作为第 $\ell$ 个周期块的预测部分
更新周期状态： $\mathbf z^{(\ell)}_{t-L:t+H} = \mathbf z^{(\ell-1)}_{t-L:t+H} - \mathbf v^{(\ell)}_{t-L:t+H}$

观测值的更新

将 $\tilde{\mathbf{x}}_{t-L: t}^{(\ell)}=\mathbf{x}_{t-L: t}^{(\ell-1)}-\mathbf{v}_{t-L: t}^{(\ell)}$ 输入局部块 $f_{\theta_l(\ell)}^l$ ，得到：
- 第 $\ell$ 层的局部回看分量 $\mathbf u^{(\ell)}_{t-L:t}$
- 第 $\ell$ 层的局部预测分量 $\mathbf u^{(\ell)}_{t:t+H}$
更新观测值： $\mathbf{x}_{t-L: t}^{(\ell)}=\mathbf{x}_{t-L: t}^{(\ell-1)}-\mathbf{v}_{t-L: t}^{(\ell)}-\mathbf{u}_{t-L}^{(\ell)}$

累积预测值的更新

$\hat{\mathbf{x}}_{t: t+H}^{(\ell)}=\hat{\mathbf{x}}_{t: t+H}^{(\ell-1)}+\mathbf{u}_{t: t+H}^{(\ell)}+\mathbf{v}_{t: t+H}^{(\ell)}$ （目的是将第 $\ell$ 层的预测拆分为两部分）

扩展模块的输出

$\begin{aligned} \mathbf{z}_{t-L: t+H}&=\mathbf{z}_{t-L: t+H}^{(0)}=\sum_{\ell=1}^N \mathbf{v}_{t-L: t+H}^{(\ell)}+\mathbf{z}_{t-L: t+H}^{(N)}, \\ \mathbf{x}_{t-L: t}&=\mathbf{x}_{t-L: t}^{(0)}=\sum_{\ell=1}^N\left(\mathbf{u}_{t-L: t}^{(\ell)}+\mathbf{v}_{t-L: t}^{(\ell)}\right)+\mathbf{x}_{t-L: t}^{(N)}, \\ \hat{\mathbf{x}}_{t: t+H}&=\hat{\mathbf{x}}_{t: t+H}^{(N)}=\sum_{\ell=1}^N\left(\mathbf{u}_{t: t+H}^{(\ell)}+\mathbf{v}_{t: t+H}^{(\ell)}\right) \end{aligned} \tag{4}$

其中，

$\mathbf{z}_{t-L: t+H}^{(N)}$ 和 $\mathbf{x}_{t-L: t}^{(N)}$ 为与预测无关的余项
$\sum_{\ell=1}^N\mathbf{v}_{t: t+H}^{(\ell)}$ 表示仅根据周期状态做出的的预测 → global periodicity
$\sum_{\ell=1}^N\mathbf{u}_{t: t+H}^{(\ell)}$ 表示根据局部历史观测值做出的预测 → local momenta

扩展模块的神经网络结构

局部块

输入：排除掉了周期效应后的第 $\ell$ 层的局部观测值 $\tilde{\mathbf{x}}_{t-L: t}^{(\ell)}=\mathbf{x}_{t-L: t}^{(\ell-1)}-\mathbf{v}_{t-L: t}^{(\ell)}$
将 $\tilde{\mathbf{x}}_{t-L: t}^{(\ell)}$ 传入全连接层（4层）
通过两个线性映射函数得到回看系数 $\mathbf c^{(\ell)}_{\mathrm b}$ 和预测系数 $\mathbf c^{(\ell)}_{\mathrm f}$
分别送入基本层（文中选用线性映射函数），得到回看分量 $\mathbf u^{(\ell)}_{t-L:t}$ 和局部预测分量 $\mathbf u^{(\ell)}_{t:t+H}$

周期块

输入：上一层的周期状态 $\mathbf z^{(\ell-1)}_{t-L:t+H}$
将 $\mathbf z^{(\ell-1)}_{t-L:t+H}$ 传入全连接层（单层）
通过两个线性映射函数得到回看分量 $\mathbf v^{(\ell)}_{t-L:t}$ 和预测分量 $\mathbf v^{(\ell)}_{t:t+H}$

周期模块 $g_\phi$

基本思想

将 $g_\phi$ 建模为 $K$ 个余弦函数之和： $g_\phi(t)=A_0+\sum_{k=1}^K A_k \cos \left(2 \pi F_k t+P_k\right)$

参数初始化

构造代替函数： $g^M_\phi(t)=A_0+\sum_{k=1}^K M_k \cdot A_k \cos \left(2 \pi F_k t+P_k\right)$ ，其中 $M_k \in \{0,1\}$ ， $\{M_1,\cdots,M_k\}$
两步最优化：
$M^*=\underset{\|M\|_1<=J}{\arg \min }\ \mathcal{L}_{D_{\text {val}}}\left(g_{\phi^*}^M(t)\right), \quad \phi^*=\underset{\phi}{\arg \min } \ \mathcal{L}_{D_{\text {train}}}\left(g_\phi(t)\right) \tag{5}$
- 内层：在训练集 $D_{\text {train}}$ 上，获取使得 $z_t$ 与 $x_t$ 差异最小的一组参数 $\phi^*$
- 外层：在验证集 $D_{\text {val}}$ 上，获取能选择具有良好泛化的某些周期掩码 $M^*$ （超参数 $J$ 控制最多选择多少个周期）

参数初始化的近似算法

将完整的PTS信号划分为训练集 $D_{\text {train}}=\mathbf x_{0:T_\mathrm v}$ 和验证集 $D_{\text {val}} =\mathbf x_{T_\mathrm v:T}$
对训练集执行DCT变换，选取振幅最大的 $K$ 个余弦基底，将参数合并起来作为 $\tilde{\phi}^*=\left\{\tilde{A}_0^*\right\} \cup\left\{\tilde{A}_k^*, \tilde{F}_k^*, \tilde{P}_k^*\right\}_{k=1}^K$
初始化 $\tilde M^*=\{0,\cdots,0\}$
按振幅值降序遍历 $K$ 个余弦基底，采用贪婪策略，根据第 $k$ 个周期能否进一步减少验证集上的损失来来为 $M_k$ 分配1或0。
具体来说，假设按振幅值降序排列的 $K$ 个余弦基底索引为 $k$ ，对于贪婪算法的第 $j$ 步（ $1,2,\cdots, K$ ），替代函数：
$g^{M_j}_{\phi^*}(t)=M_j \cdot A^*_j\cos\left(2πF^*_j t +P^*_j\right) + \left[A^*_0+\sum_{k=1}^j \tilde M^*_k \cdot A^*_k \cos \left(2 \pi F^*_k t+P^*_k\right)\right] \tag{9}$
其中， $\tilde M^*_1,\tilde M^*_2,\cdots,\tilde M^*_{j-1}$ 是在前面的贪婪步骤中确定的；当前步骤的目标是通过下面的公式确定 $M_j$ ：
$\tilde M ^*_j=\underset{M_j\in \{0,1\}}{\arg\min}\ \mathcal L_{D_{\mathrm{val}}}\left(g^{M_j}_{\phi^*}(t)\right) \tag{10}$
其中 $\mathcal L$ 为Dynamic Time Warping。
最终贪婪算法在选取了 $J$ 个周期（或遍历了全部 $K$ 个周期）后停止，自此获得了 $\tilde M^*$ 的近似解。
令 $\tilde M^*$ ， $\phi = \tilde \phi^*$
按照解耦公式 $(3)$ 对 $\phi$ 和 $\theta$ 进行联合学习

实验结果

实验要回答的问题

为什么要根据PTS信号的固有周期性来建模PTS信号的复杂依赖性？
与SOTA模型相比，使用DEPTS预测能获得多少额外的收益？
如何解释 $f_\theta$ 和 $g_\phi$ 的作用？

评估指标

Normalised deviation & normalised root mean square error:
$\text{nd}=\frac{\frac{1}{|\Omega|} \sum_{(i, t) \in \Omega}\left|x_t^i-\hat{x}_t^i\right|}{\frac{1}{|\Omega|} \sum_{(i, t) \in \Omega}\left|x_t^i\right|}, \quad \text { nrmse }=\frac{\sqrt{\frac{1}{|\Omega|} \sum_{(i, t) \in \Omega}\left(x_t^i-\hat{x}_t^i\right)^2}}{\frac{1}{|\Omega|} \sum_{(i, t) \in \Omega}\left|x_t^i\right|} \tag{6}$

合成数据集上的实验结果

对N-BEATS和DEPTS都进行了调优，但N-BEATS与DEPTS仍有较大的性能差距 → 证明了周期性建模的重要性
随着周期依赖变得更加复杂（从线性到立方），DEPTS的领先幅度逐渐增加 → 进一步证明了建模高阶周期效应的重要性

真实数据集上的实验结果

根据数据集的周期效应的复杂度的不同，DEPTS相对于N-BEATS的领先幅度也有所不同，但多数时间里DEPTS都能给出稳定的性能增益。

解读

DEPTS有两种不同的分解策略：最终预测可能更多来自于global periodicity，也可能更多来自于local momenta
$g_\phi$ 确实可以捕捉到一部分的固有周期性

S.Z.Zheng

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
论文笔记：DEPTS: Deep Expansion Learning for Periodic Time Series Forecasting

本论文设计了一种名为DEPTS的深度学习框架，可以建模并预测周期性时间序列，并取得了较好的结果。
复制链接

扫一扫