Coupled Layer-wise Graph Convolution for Transportation Demand Prediction

wwj灬

于 2021-10-26 20:30:30 发布

阅读量275

点赞数

分类专栏：时空序列预测论文 GCN 文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/qq_41451283/article/details/120980174

版权

时空序列预测论文同时被 2 个专栏收录

15 篇文章 11 订阅

订阅专栏

GCN

6 篇文章 0 订阅

订阅专栏

该文提出了一种新型的图卷积结构——耦合层-wise图卷积（CGC），用于交通需求预测。与传统图卷积不同，CGC在不同层使用自学习的邻接矩阵，捕捉多层次空间相关性。通过分层耦合机制，上下层邻接矩阵相互连接，进一步增强信息提取能力。此外，利用注意力机制进行多级信息聚合，并结合GRU处理时间序列动态性。这种方法旨在解决现有模型在邻接矩阵生成、空间相关性和时间依赖性建模上的局限性。

摘要由CSDN通过智能技术生成

Coupled Layer-wise Graph Convolution for Transportation Demand Prediction

1.文章概述

现有大部分研究的图卷积是在启发式生成的邻接矩阵上实现的，既不能准确反映站点的真实空间关系，也不能自适应地捕捉需求的多层次空间相关性。为解决这些问题。首先，提出了一种新颖的图卷积结构，该结构在不同层具有不同的邻接矩阵，并且所有邻接矩阵在训练过程中都是自学习的。其次，提出了一种分层耦合机制，将上层邻接矩阵和下层邻接矩阵联系起来。最后，通过将隐藏的空间状态与门控递归单元相结合，该网络可以同时捕捉多层次的空间相关性和时间动态性。

当前研究的一些局限性：

图卷积网络中决定聚合方式的邻接矩阵大多是固定的，根据空间距离或网络连通性用启发式方法生成，不能捕捉真正的空间相关性。
现有方法忽略了运输需求预测的层次依赖性。
只有一个邻接矩阵的堆叠图卷积很难有效捕捉所需的依赖关系
不同层的表示对最终交通预测的贡献不应该是静态的，而是随着时间是动态的。

本文主要贡献点：

提出了一种新的图形卷积结构，用于自适应地提取多级空间相关性
提出了一种分层耦合机制，以桥接上层邻接矩阵和下层邻接矩阵
提出了一个统一的预测框架来进行最终的预测，将图卷积与GRU结合在一个seq2seq的体系结构中进行最终预测

几种不同GCN的比较：

在这里插入图片描述

(a) che_GCN：引入了一阶切比雪夫多项式滤波器逼近的图卷积

(b) GIN(Graph Isomorphism Network) ：是通过在邻接矩阵上增加一个加权单位矩阵来构造的

(d) gfNN(graph filter Neural Network) ：在SGC的基础上增加了激活函数和映射函数，以便对非线性相关性进行建模

(e) MixHop:通过邻接矩阵的混合幂探索近邻和远邻的潜在表示

2.Methodology

在这里插入图片描述

2.1 Adjacency Matrix Generation

本文作者提出了一种新的构图方法，首先对于给定的图信号 $\mathbf{X}_{t_{a}: t_{a}+\tau-1} \in \mathbf{R}^{\tau \times N \times d}$ ,将其reshape成2-D矩阵 $(\tau \cdot d)\times N$ 。为了捕捉不同站点之间的内部相似性并过滤站点之间的冗余信息，本文将二维矩阵分解为两个: $X_a=X^tX^{sT}$ ,分别表示表示时间维度和站点维度的矩阵。接下来通过计算 $X^s$ 不同行的相识度作为邻接矩阵。
$\boldsymbol{A}_{x y}=\exp \left(-\frac{\left\|\boldsymbol{X}_{x}^{s}-\boldsymbol{X}_{y}^{s}\right\|^{2}}{\varepsilon^{2}}\right)$

2.2 Coupled Layer-wise Graph Convolution

为了高效、准确地捕捉多级相关性，我们提出了一种新的图卷积网络——耦合分层图卷积(CGC)，其在不同的层中具有不同的邻接矩阵。其递归表示如下所示
$\boldsymbol{Z}^{(m+1)}=\boldsymbol{Z}^{(m)} \star_{G} \boldsymbol{g}_{\boldsymbol{\theta}}^{(m)}=\sum_{i=0}^{K}\left(\boldsymbol{A}^{(m)}\right)^{i} \boldsymbol{Z}^{(m)} \boldsymbol{\theta}_{i}^{(m)}$
其中 $Z^{m}$ 表示 $m + 1$ 层的输入，且是第 $m$ 层的输出， $A^{m}$ 在不同层中是不一样的，递推公式可以表示为：
$\boldsymbol{A}^{(m+1)}=\psi^{(m)}\left(\boldsymbol{A}^{(m)}\right)$
其中 $\psi^{(m)}$ 表示耦合映射函数。在计算过程中为了减少参数数量，我们将前面生成的邻接矩阵通过SVD分解成两个小矩阵，且这两个小矩阵是可训练的
$A^{(0)}=E_1^{(0)}E_2^{(0)^T}$
且对 $E_1,E_2$ 的映射函数采用权值共享 $\psi^{(m)}$ ,其中 $\psi^{(m)}$ 在实验中使用的是全连接映射，可以表示为：
$\begin{aligned} &\boldsymbol{E}_{1}^{(m)}=\boldsymbol{E}_{1}^{(m-1)} \boldsymbol{W}^{(m-1)}+\boldsymbol{b}^{(m-1)} \\ &\boldsymbol{E}_{2}^{(m)}=\boldsymbol{E}_{2}^{(m-1)} \boldsymbol{W}^{(m-1)}+\boldsymbol{b}^{(m-1)} \end{aligned}$
最终的图卷积公式可以表示为：
$\boldsymbol{Z}^{(m+1)}=\sum_{i=0}^{R}\left(\boldsymbol{E}_{1}^{(m)} \boldsymbol{E}_{2}^{(m)^{T}}\right)^{i} \boldsymbol{Z}^{(m)} \boldsymbol{\theta}_{i}^{(m)}$

2.3 Multi-level Aggregation

为了从所有图卷积层中收集信息，而不是仅从一个固定层中提取信息，本文通过注意力机制来实现多级聚集，以选择对当前预测任务相对重要的信息。由CGC获得的图形信号的多级表示可以表示为 $\mathbb{Z}=\left\{\boldsymbol{Z}^{(1)}, \boldsymbol{Z}^{(2)}, \ldots, \boldsymbol{Z}^{(m)}, \ldots, \boldsymbol{Z}^{(M)}\right\},\mathbb{Z}\in R^{M\times N\times \beta}$ ，其中 $M$ 表示图卷积层数， $\beta$ 表示特征维度，attention scores计算公式如下：
$\alpha^{(m)}=\frac{\exp \left(\hat{\boldsymbol{Z}}^{(m)} \boldsymbol{W}_{\alpha}+b_{\alpha}\right)}{\sum_{m=1}^{M} \exp \left(\hat{\boldsymbol{Z}}^{(m)} \boldsymbol{W}_{\alpha}+b_{\alpha}\right)}$
最终通过attention scores计算最终的聚合结果：
$\boldsymbol{h}=\sum_{m=1}^{M} \alpha^{(m)} \boldsymbol{Z}^{(m)}$

2.4 Temporal Dependence Modeling

本文将GRU的线性变换替换为CGC和多级聚合的组合。耦合分层卷积递归门控递归单元定义为:
$\begin{aligned} \boldsymbol{r}^{(t)} &=\sigma\left(\Theta_{r} \star_{G}\left[\boldsymbol{h}^{(t)}, \boldsymbol{H}^{(t-1)}\right]+\boldsymbol{b}_{r}\right), \\ \boldsymbol{u}^{(t)} &=\sigma\left(\Theta_{u} \star_{G}\left[\boldsymbol{h}^{(t)}, \boldsymbol{H}^{(t-1)}\right]+\boldsymbol{b}_{u}\right), \\ \boldsymbol{c}^{(t)} &=\tanh \left(\Theta_{c} \star_{G}\left[\boldsymbol{h}^{(t)},\left(\boldsymbol{r}^{(t)} \odot \boldsymbol{H}^{(t-1)}\right)\right]+\boldsymbol{b}_{c}\right) \\ \boldsymbol{H}^{(t)} &=\boldsymbol{u}^{(t)} \odot \boldsymbol{H}^{(t-1)}+\left(1-\boldsymbol{u}^{(t)}\right) \odot \boldsymbol{c}^{(t)}, \end{aligned}$