Regularized Graph Structure Learning with Semantic Knowledge for Multi-variates Time-Series Forecast

该论文提出了正则化图结构学习(RGSL)模型,旨在解决多变量时间序列预测中显式和隐式图结构结合的问题。现有方法主要依赖于领域专家定义的固定图结构,而RGSL模型通过结合显式先验结构和从时间序列中学习到的隐式关系,构建更完整的图结构。通过GumbelSoftmax计算稀疏邻接矩阵,RGSL能够过滤无用边,提高预测性能并增强模型的可解释性。实验表明,RGSL在时间序列预测任务上表现出优越性。
摘要由CSDN通过智能技术生成

论文题目:Regularized Graph Structure Learning with Semantic Knowledge for Multi-variates Time-Series Forecasting

论文来源:Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence (IJCAI-22)

论文代码:https: //github.com/alipay/RGSL.git

问题:利用时空图建模多变量时间序列的关系和相关性来提高时间序列预测结果,已经被应用在多变量时间序列预测。但现有的研究大多关注显式先验图结构的学习,即利用领域专家知识构建固定的图结构来描述多变量时间序列之间的关系图。由于专家难以捕捉到大规模时间序列中潜在的或长期依赖的隐式关联关系,无法挖掘隐式图结构的潜在信息,导致结构建模不完整。因此,如何定义准确的动态关系图成为时空图时间序列预测的关键。

一种思路是直接从时间序列模式中学习内在/隐式图结构,但这忽略了利用由领域专家知识定义的先验时间序列关系的可能性。因此,论文重点解决两个问题。一是如何有效地将显式时间序列关系与隐式关联以端到端的方式结合起来;二是如何将学习到的图正则化为稀疏图,过滤掉多余的无用边,从而提高整体性能,对实际应用更有价值。

贡献:论文提出正则化图结构学习(正则化图结构学习,RGSL)模型,将显式先验结构和隐式结构结合在一起,并根据图结构学习预测深度网络。

符号表示:

训练数据:X_{0:T}=\left\{ X_0,X_1,\cdots,X_T\right \},其中,X_t=\left\{X_t^0,X_t^1,\cdots,X_t^N \right\}表示t时刻的N维向量。

假定有T个数据用于训练,\tau个数据需要预测。G^{(0)}表示先验的图结构,G^{(l)}表示由训练数据学到隐式关系图。A\in R^{N\times N}为临街矩阵。

时间序列预测任务可以描述为:

\min_{W_\theta} L(X_{T+1:T+\tau },\hat{X}_{T+1:T+\tau };X_{0:T},G^{(0)},G^{(l)})

这里,W_\theta表示待学习参数,\hat{X}_{T+1:T+\tau}表示真值,L为loss函数。

算法框架和流程:

  • 时空循环网络根据多维时间序列更新节点嵌入矩阵E \in R^{N \times d},然后根据下式计算稀疏邻接矩阵A^{(l)}

A^{(l)}=\sigma ((log(\theta_{ij}/(1-\theta_{ij}))+(g^1_{ij}-g^2_{ij}))/s)

s.t. g^1_{ij},g^2_{ij} \sim Gumbel(0,1)

其中,\theta_{ij} \in \mathbf{\theta}=EE^T表示保留时间序列i到j的边的可能性。Gumbel Softmax与普通Softmax具有相同的概率分布,保证了图预测网络在统计上与可训练概率矩阵生成保持一致。

在每一次迭代中,计算邻矩阵θ,Gumbel-Max对邻矩阵进行采样,以确定保留哪条边,丢弃哪条边,这与Dropout类似。然而,dropout随机选择概率相等的边或神经元,而丢弃概率较小的有用边,倾向于去除那些多余的边。与dropout的另一个区别是,在测试阶段,RGG还利用Gumbel Softmax去除冗余小值中包含的噪声信息。这样既滤除了节点间的相似信息,有利于后续流量预测,又继承了dropout的优点,提高了正则化和泛化能力,防止了过多的自适应。从另一个角度来看,RGG还提高了图时间序列预测的可解释性,因为A(l)是稀疏的。

  • 对A(l)和A(0)分别应用Chebyshev多项式展开形式的图运算,并将综合先验显式图和隐式图以获得拉普拉斯混合模型:

M^{(m)}(X)=f_a(\tilde{A}^{(0)}(X);\theta_a)+f_a(\tilde{A}^{(l)}(X);\theta_b)

\tilde{A}^{(0)}(X)=(I+D^{-1/2}A^{(0)}D^{-1/2})XW^{(0)}+W^{(0)}_b

\tilde{A}^{(l)}(X)=(I+D^{-1/2}A^{(l)}D^{-1/2})XW^{(l)}+W^{(l)}_b

f_a表示自注意力网络,D为度矩阵,W^{(0)}W^{(0)}_bW^{(l)}W^{(l)}_b表示待学习参数。

  • X_{0:T}M^{(m)}作为输入,传递给包含一个GCN和一个GRU的时空循环卷积网络(STRGC),以进一步了解交通序列之间的时空相关性。

L(W_\theta)=\frac{1}{\tau}\left | X_{T+1:T+\tau} -\hat{X}_{T+1:T+\tau} \right |

实验:

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值