论文笔记《Coupled Layer-wise Graph Convolution for Transportation Demand Prediction》

最新推荐文章于 2024-01-27 22:11:59 发布

mintminty

最新推荐文章于 2024-01-27 22:11:59 发布

阅读量795

点赞数 3

分类专栏：论文笔记

本文链接：https://blog.csdn.net/mintminty/article/details/113508456

版权

论文笔记专栏收录该内容

14 篇文章 16 订阅

订阅专栏

本文贡献

新的图卷积结构：能自适应地提取多层级空间依赖关系。该结构在不同层具有不用邻接矩阵，所有邻接矩阵都是学习得到的。
分层耦合机制(layer-wise coupling mechanism)：根据不同层中拓扑结构的隐藏相关性，将上层邻接矩阵与底层邻接矩阵联系起来。同时也能减少计算开销。
单一预测框架：利用Seq2Seq结构，将空间隐藏状态与GRU集成起来。

作者在分析现有研究时，提到如下几个图卷积形式：

(a) GCN (Semi-supervised classification with graph convolutional networks) ：被广泛应用的一种模式，一阶切比雪夫多项式近似。
(b) GIN 图同构网络(Graph Isomorphism Network, How Powerful are Graph Neural Networks?) ：在邻接矩阵上用附加的加权恒等矩阵构造。
(c) SGC 简单图卷积(Simple Graph Convolution: Simplifying Graph Convolutional Networks) ：通过将初始邻接矩阵本身乘以k倍，简化了多层图卷积网络。
(d) gfNN (graph filter Neural Network: Revisiting Graph Neural Networks: All We Have is Low-Pass Filters.) ：在SGC的基础上增加一个激活函数和一个映射函数，以模拟非线性关联。
(e) MixHop (MixHop: Higher-Order Graph Convolutional Architectures via Sparsified Neighborhood Mixing.) ：利用邻接矩阵的混合幂探索近邻和进一步邻居的潜在表示。

以上这些图卷积模型难以有效捕捉多级依赖关系，本文提出的 (f) CGC 具有自学习各层之间不同邻接矩阵的能力，进而具有对图的层次化表征的能力。

Methodology

Adjacency Matrix Generation

邻接矩阵的生成是本文的一大创新点，当我们有 $\tau$ 步的输入时 $\mathbf{X}_{t_{a}: t_{a}+\tau-1} \in \mathbf{R}^{\tau \times N \times d}$

首先将3-D tensor 转化为2-D tensor $(\tau \cdot d) \times N$
接着将 2-D 输入做奇异值分解，以达到降维/去噪目的： $\boldsymbol{X}^{a}=\boldsymbol{X}^{t} \boldsymbol{X}^{s}$
$\boldsymbol{X}^{s} \in \mathbf{R}^{N \times \xi}$ 表示了station-wise的矩阵，其中 $\xi$ 表示站点特征维度。作者基于此按行计算（站点间）相似度，以得到邻接矩阵 $\boldsymbol{A}_{x y}=\operatorname{Similarity}\left(\boldsymbol{X}_{x}^{s}, \boldsymbol{X}_{y}^{s}\right)$

Coupled Layer-wise Graph Convolution

以往研究为满足CNN计算条件，将城市划分为网格形式，但是该种方式具有固定且局部的感受野，不利于捕捉远距离特征和区域间的相似性。
基于谱图的图卷积出现，将计算从网格结构扩展到了图结构。但是基于网格数据进行图卷积操作，仍然难以提取各个时间步中的特征高阶表示，因为同一时间在同一网格内可能有多种出行模式混杂在一起。

在这里插入图片描述

基于以上，作者针对基于站点与非站点的出行，提出一种统一的图形表示，以有效捕捉多级依赖关系。该图卷积叫 Coupled Layer-wise Graph Convolution (CGC)，各层具有不同邻接矩阵，公式： $Z^{(m+1)}=Z^{(m)} \star_{G} g_{\theta}^{(m)}=\sum_{i=0}^{K}\left(A^{(m)}\right)^{i} Z^{(m)} \theta_{i}^{(m)}$

$Z^{(m)}$ 表示 $m + 1$ 层的输入， $Z^{(m+1)}$ 既是 $m + 1$ 层的输出，又是 $m + 2$ 层的输入
【如下图】节点间的多级关系通过邻接矩阵 $A^{(m)}$ 表示，成对关系映射函数为 $\psi^{(m)}$ ，层级之间的关系为 $\boldsymbol{A}^{(m+1)}=\psi^{(m)}\left(\boldsymbol{A}^{(m)}\right)$ 。注： $\psi^{(m)}$ 文章中使用的是全连接层。

需要说明的是，考虑到节点数过多时，会产生 $N * N$ 维度的邻接矩阵，计算开销过大。为解决这个问题：

作者采用矩阵分解，将邻接矩阵分成两个较小的矩阵： $\boldsymbol{A}^{(0)}=\boldsymbol{E}_{1}^{(0)} \boldsymbol{E}_{2}^{(0)^{T}}$ 。
层级连接中： $\boldsymbol{A}^{(m+1)}=\psi^{(m)}\left(\boldsymbol{A}^{(m)}\right)$ ，相同层级的两个 $E$ 是共享全连接层参数的。

特殊说明第一层 CGC 做法
为避免不恰当的随机初始化造成难收敛问题，第一层CGC定义为： $\boldsymbol{Z}^{(1)}=\sum_{i=0}^{K}\left(\boldsymbol{A}^{(0)}\right)^{i} \boldsymbol{Z}^{(0)} \boldsymbol{\theta}_{i}^{(0)}$

${Z}^{(0)} = X$ ，即特征矩阵
${A}^{(0)}$ 经过 $\hat{\boldsymbol{A}}=\boldsymbol{D}^{-1} \boldsymbol{A}$ 和前面提到的相似性计算 $\boldsymbol{A}_{x y}=\operatorname{Similarity}\left(\boldsymbol{X}_{x}^{s}, \boldsymbol{X}_{y}^{s}\right)$ 得到

Multi-level Aggregation

在这里插入图片描述

前文中作者通过 CGC 得到了： $\mathbb{Z}=\left\{\boldsymbol{Z}^{(1)}, \boldsymbol{Z}^{(2)}, \ldots, \boldsymbol{Z}^{(m)}, \ldots, \boldsymbol{Z}^{(M)}\right\}$ 其中 $M$ 表示图卷积层的层数，通过注意力机制将多级信息聚合，聚合方式如下：在这里插入图片描述

Temporal Dependence Modeling

模型的大框架是 encoder-decoder 结构，其中每个部分都是 CCGRU(The Coupled Layer-wise Convolutional Recurrent Gated Recurrent Unit)，CCGRU 是将普通 GRU 中的线性转化部分转化为上文说明的 CGC。
在这里插入图片描述

Experiments

Datasets

NYC Citi Bike，是基于站点的数据，经过滤共保留250个站点
NYC Taxi，是无站点数据，对订单数据聚类形成266个虚拟站点

Experimental Setup

研究区域是8.42km × 14.45km的矩形
时间片间隔是30min
特征维度 $D = 2$ ，分别表示取车和还车数
用历史12步预测未来12步
在邻接矩阵生成中，仅用训练数据集学习站点表示
堆叠的卷积层层数为3

Main Results

Comparison with Baselines

在这里插入图片描述

Ablation Study

No Adaptive：邻接矩阵分解出的 $E$ 不可训练
No Coupling：不能成对映射
Random Init：随机初始化 $E$
Distance Init：用节点间的距离表示初始化 $A$
PCC Init：用需求时间序列数据的皮尔逊相关系数初始化 $A$

在看这篇文章时，感觉很新颖的部分在于：

作者提出 Coupled Layer-wise Graph Convolution (CGC) 的卷积架构，本文实验中这个模块由3层图卷积构成，关键在于每层图卷积的邻接矩阵都是不同的。同时，也提出邻接矩阵之间的 coupled mapping 方式。
本文邻接矩阵重点还是体现在不同层具有不同邻接矩阵 这方面吧，变化仅存在于不同层图卷积操作时，并没体现时间维度对于邻接矩阵的影响（印象中）。不过当这个图卷积放到GRU中，是否能体现时间维度的特性呢？（没太想清楚，回头看看代码）
然后就是魔改 $G R U$ 内部结构，将中间的线性连接变成作者新提出的图卷积方式。最后套在一个encoder-decoder框架上。（这个组合方式在其他文章中也有看到）