Regularized Graph Structure Learning with Semantic Knowledge for Multi-variates Time-Series Forecast

最新推荐文章于 2024-06-09 09:53:00 发布

云行漠野

最新推荐文章于 2024-06-09 09:53:00 发布

阅读量513

点赞数

文章标签：人工智能神经网络深度学习

本文链接：https://blog.csdn.net/qq_41640419/article/details/127107367

版权

该论文提出了正则化图结构学习(RGSL)模型，旨在解决多变量时间序列预测中显式和隐式图结构结合的问题。现有方法主要依赖于领域专家定义的固定图结构，而RGSL模型通过结合显式先验结构和从时间序列中学习到的隐式关系，构建更完整的图结构。通过GumbelSoftmax计算稀疏邻接矩阵，RGSL能够过滤无用边，提高预测性能并增强模型的可解释性。实验表明，RGSL在时间序列预测任务上表现出优越性。

摘要由CSDN通过智能技术生成

论文题目：Regularized Graph Structure Learning with Semantic Knowledge for Multi-variates Time-Series Forecasting

论文来源：Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence (IJCAI-22)

论文代码：https: //github.com/alipay/RGSL.git

问题：利用时空图建模多变量时间序列的关系和相关性来提高时间序列预测结果，已经被应用在多变量时间序列预测。但现有的研究大多关注显式先验图结构的学习，即利用领域专家知识构建固定的图结构来描述多变量时间序列之间的关系图。由于专家难以捕捉到大规模时间序列中潜在的或长期依赖的隐式关联关系，无法挖掘隐式图结构的潜在信息，导致结构建模不完整。因此，如何定义准确的动态关系图成为时空图时间序列预测的关键。

一种思路是直接从时间序列模式中学习内在/隐式图结构，但这忽略了利用由领域专家知识定义的先验时间序列关系的可能性。因此，论文重点解决两个问题。一是如何有效地将显式时间序列关系与隐式关联以端到端的方式结合起来;二是如何将学习到的图正则化为稀疏图，过滤掉多余的无用边，从而提高整体性能，对实际应用更有价值。

贡献：论文提出正则化图结构学习(正则化图结构学习，RGSL)模型，将显式先验结构和隐式结构结合在一起，并根据图结构学习预测深度网络。

符号表示：

训练数据： $X_{0:T}=\left\{ X_0,X_1,\cdots,X_T\right \}$ ,其中， $X_t=\left\{X_t^0,X_t^1,\cdots,X_t^N \right\}$ 表示 $t$ 时刻的 $N$ 维向量。

假定有 $T$ 个数据用于训练， $\tau$ 个数据需要预测。 $G^{(0)}$ 表示先验的图结构， $G^{(l)}$ 表示由训练数据学到隐式关系图。 $A\in R^{N\times N}$ 为临街矩阵。

时间序列预测任务可以描述为：

$\min_{W_\theta} L(X_{T+1:T+\tau },\hat{X}_{T+1:T+\tau };X_{0:T},G^{(0)},G^{(l)})$

这里， $W_\theta$ 表示待学习参数， $\hat{X}_{T+1:T+\tau}$ 表示真值，L为loss函数。

算法框架和流程：

时空循环网络根据多维时间序列更新节点嵌入矩阵 $E \in R^{N \times d}$ ，然后根据下式计算稀疏邻接矩阵 $A^{(l)}$ ：

$A^{(l)}=\sigma ((log(\theta_{ij}/(1-\theta_{ij}))+(g^1_{ij}-g^2_{ij}))/s)$

$s.t. g^1_{ij},g^2_{ij} \sim Gumbel(0,1)$

其中， $\theta_{ij} \in \mathbf{\theta}=EE^T$ 表示保留时间序列i到j的边的可能性。Gumbel Softmax与普通Softmax具有相同的概率分布，保证了图预测网络在统计上与可训练概率矩阵生成保持一致。

在每一次迭代中，计算邻矩阵θ，Gumbel-Max对邻矩阵进行采样，以确定保留哪条边，丢弃哪条边，这与Dropout类似。然而，dropout随机选择概率相等的边或神经元，而丢弃概率较小的有用边，倾向于去除那些多余的边。与dropout的另一个区别是，在测试阶段，RGG还利用Gumbel Softmax去除冗余小值中包含的噪声信息。这样既滤除了节点间的相似信息，有利于后续流量预测，又继承了dropout的优点，提高了正则化和泛化能力，防止了过多的自适应。从另一个角度来看，RGG还提高了图时间序列预测的可解释性，因为A(l)是稀疏的。