原标题:Graph correlated attention recurrent neural network for multivariate time series forecasting
动机
虽然注意力机制可以缓解RNN变体难以关注关键信息和捕获长期依赖关系的问题,但它无法基于历史目标与外部特征的可靠交互学习时变模式。(外部特征指的是除了预测变量之外的其他变量,比如我预测PM2.5,那CO2、SO2等就是外部特征)
模型
整个模型的架构如下:
Improved Graph Attention Module
对于多变量时间序列预测不仅因为需要提取节点间的相关性,还因为需要考虑与每个节点相关的特征表示。因此作者加入了一个特征级的注意力层,为不同的特征分配了重要性,给下面的GAT提供了重要信息。公式如下,其中v和w是可学习权重:
处理完了以后就是常规的GAT操作
注意力头设置为2,用来增加稳定性。
Self-optimizing Modules
改进的图注意力模块对于提取外部序列特征,即跨多个时间步的相关外部序列之间的时序交互具有其有效性。尽管如此,它并未捕捉到历史目标序列对外部序列特征的影响。因此,作者设计了一个多层注意力机制,通过参考历史目标序列和外部序列特征,将历史目标序列的影响加入到每个时间步的外部特征贡献的细粒度划分中。由于时间序列是随时间动态变化的,作者利用两个并行的LSTM函数分别学习目标序列的时间依赖性和多级注意力得到的外部序列的时间依赖性,以保持序列时间记忆的连续性。具体操作如下:
最后用了一个Fusion gate融合了两者的信息,在样子上倒是很像GRU:
整个算法的流程如下:
结果
结果就不贴了。
可视化
问题
虽然这篇文章使用的是图关联注意力,但是全篇都没有任何图结构,虽然不是不能理解毕竟对于时间序列中的变量比较难以建图,但这篇文章感觉上就只是套用了图关联的公式和图的关系不大