论文笔记《Coupled Layer-wise Graph Convolution for Transportation Demand Prediction》

本文贡献

  • 新的图卷积结构:能自适应地提取多层级空间依赖关系。该结构在不同层具有不用邻接矩阵,所有邻接矩阵都是学习得到的。
  • 分层耦合机制(layer-wise coupling mechanism):根据不同层中拓扑结构的隐藏相关性,将上层邻接矩阵与底层邻接矩阵联系起来。同时也能减少计算开销。
  • 单一预测框架:利用Seq2Seq结构,将空间隐藏状态与GRU集成起来。
    在这里插入图片描述

作者在分析现有研究时,提到如下几个图卷积形式:

(a) GCN (Semi-supervised classification with graph convolutional networks) :被广泛应用的一种模式,一阶切比雪夫多项式近似。
(b) GIN 图同构网络(Graph Isomorphism Network, How Powerful are Graph Neural Networks?) :在邻接矩阵上用附加的加权恒等矩阵构造。
(c) SGC 简单图卷积(Simple Graph Convolution: Simplifying Graph Convolutional Networks) :通过将初始邻接矩阵本身乘以k倍,简化了多层图卷积网络。
(d) gfNN (graph filter Neural Network: Revisiting Graph Neural Networks: All We Have is Low-Pass Filters.) :在SGC的基础上增加一个激活函数和一个映射函数,以模拟非线性关联。
(e) MixHop (MixHop: Higher-Order Graph Convolutional Architectures via Sparsified Neighborhood Mixing.) :利用邻接矩阵的混合幂探索近邻和进一步邻居的潜在表示。

以上这些图卷积模型难以有效捕捉多级依赖关系,本文提出的 (f) CGC 具有自学习各层之间不同邻接矩阵的能力,进而具有对图的层次化表征的能力。

Methodology

Adjacency Matrix Generation

邻接矩阵的生成是本文的一大创新点,当我们有 τ \tau τ 步的输入时 X t a : t a + τ − 1 ∈ R τ × N × d \mathbf{X}_{t_{a}: t_{a}+\tau-1} \in \mathbf{R}^{\tau \times N \times d} Xta:ta+τ1Rτ×N×d

  • 首先将3-D tensor 转化为2-D tensor ( τ ⋅ d ) × N (\tau \cdot d) \times N (τd)×N
  • 接着将 2-D 输入做奇异值分解,以达到降维/去噪目的: X a = X t X s \boldsymbol{X}^{a}=\boldsymbol{X}^{t} \boldsymbol{X}^{s} Xa=XtXs
  • X s ∈ R N × ξ \boldsymbol{X}^{s} \in \mathbf{R}^{N \times \xi} XsRN×ξ 表示了station-wise的矩阵,其中 ξ \xi ξ 表示站点特征维度。作者基于此按行计算(站点间)相似度,以得到邻接矩阵 A x y = Similarity ⁡ ( X x s , X y s ) \boldsymbol{A}_{x y}=\operatorname{Similarity}\left(\boldsymbol{X}_{x}^{s}, \boldsymbol{X}_{y}^{s}\right) Axy=Similarity(Xxs,Xys)

Coupled Layer-wise Graph Convolution

  • 以往研究为满足CNN计算条件,将城市划分为网格形式,但是该种方式具有固定且局部的感受野,不利于捕捉远距离特征和区域间的相似性。
  • 基于谱图的图卷积出现,将计算从网格结构扩展到了图结构。但是基于网格数据进行图卷积操作,仍然难以提取各个时间步中的特征高阶表示,因为同一时间 在同一网格内可能有多种出行模式混杂在一起。

在这里插入图片描述

基于以上,作者针对基于站点与非站点的出行,提出一种统一的图形表示,以有效捕捉多级依赖关系。该图卷积叫 Coupled Layer-wise Graph Convolution (CGC),各层具有不同邻接矩阵,公式: Z ( m + 1 ) = Z ( m ) ⋆ G g θ ( m ) = ∑ i = 0 K ( A ( m ) ) i Z ( m ) θ i ( m ) Z^{(m+1)}=Z^{(m)} \star_{G} g_{\theta}^{(m)}=\sum_{i=0}^{K}\left(A^{(m)}\right)^{i} Z^{(m)} \theta_{i}^{(m)} Z(m+1)=Z(m)Ggθ(m)=i=0K(A(m))iZ(m)θi(m)

  • Z ( m ) Z^{(m)} Z(m) 表示 m + 1 m+1 m+1 层的输入, Z ( m + 1 ) Z^{(m+1)} Z(m+1) 既是 m + 1 m+1 m+1 层的输出,又是 m + 2 m+2 m+2 层的输入
  • 【如下图】节点间的多级关系通过邻接矩阵 A ( m ) A^{(m)} A(m) 表示,成对关系映射函数为 ψ ( m ) \psi^{(m)} ψ(m),层级之间的关系为 A ( m + 1 ) = ψ ( m ) ( A ( m ) ) \boldsymbol{A}^{(m+1)}=\psi^{(m)}\left(\boldsymbol{A}^{(m)}\right) A(m+1)=ψ(m)(A(m))。注: ψ ( m ) \psi^{(m)} ψ(m) 文章中使用的是全连接层。
    在这里插入图片描述

需要说明的是,考虑到节点数过多时,会产生 N ∗ N N*N NN 维度的邻接矩阵,计算开销过大。为解决这个问题:

  • 作者采用矩阵分解,将邻接矩阵分成两个较小的矩阵: A ( 0 ) = E 1 ( 0 ) E 2 ( 0 ) T \boldsymbol{A}^{(0)}=\boldsymbol{E}_{1}^{(0)} \boldsymbol{E}_{2}^{(0)^{T}} A(0)=E1(0)E2(0)T
  • 层级连接中: A ( m + 1 ) = ψ ( m ) ( A ( m ) ) \boldsymbol{A}^{(m+1)}=\psi^{(m)}\left(\boldsymbol{A}^{(m)}\right) A(m+1)=ψ(m)(A(m)),相同层级的两个 E E E 是共享全连接层参数的。

特殊说明第一层 CGC 做法
为避免不恰当的随机初始化造成难收敛问题,第一层CGC定义为: Z ( 1 ) = ∑ i = 0 K ( A ( 0 ) ) i Z ( 0 ) θ i ( 0 ) \boldsymbol{Z}^{(1)}=\sum_{i=0}^{K}\left(\boldsymbol{A}^{(0)}\right)^{i} \boldsymbol{Z}^{(0)} \boldsymbol{\theta}_{i}^{(0)} Z(1)=i=0K(A(0))iZ(0)θi(0)

  • Z ( 0 ) = X {Z}^{(0)} = X Z(0)=X ,即特征矩阵
  • A ( 0 ) {A}^{(0)} A(0) 经过 A ^ = D − 1 A \hat{\boldsymbol{A}}=\boldsymbol{D}^{-1} \boldsymbol{A} A^=D1A 和 前面提到的相似性计算 A x y = Similarity ⁡ ( X x s , X y s ) \boldsymbol{A}_{x y}=\operatorname{Similarity}\left(\boldsymbol{X}_{x}^{s}, \boldsymbol{X}_{y}^{s}\right) Axy=Similarity(Xxs,Xys) 得到

Multi-level Aggregation

在这里插入图片描述

前文中作者通过 CGC 得到了: Z = { Z ( 1 ) , Z ( 2 ) , … , Z ( m ) , … , Z ( M ) } \mathbb{Z}=\left\{\boldsymbol{Z}^{(1)}, \boldsymbol{Z}^{(2)}, \ldots, \boldsymbol{Z}^{(m)}, \ldots, \boldsymbol{Z}^{(M)}\right\} Z={Z(1),Z(2),,Z(m),,Z(M)} 其中 M M M 表示图卷积层的层数,通过注意力机制将多级信息聚合,聚合方式如下:在这里插入图片描述

Temporal Dependence Modeling

模型的大框架是 encoder-decoder 结构,其中每个部分都是 CCGRU(The Coupled Layer-wise Convolutional Recurrent Gated Recurrent Unit),CCGRU 是将普通 GRU 中的线性转化部分转化为上文说明的 CGC。
在这里插入图片描述

Experiments

Datasets

  • NYC Citi Bike,是基于站点的数据,经过滤共保留250个站点
  • NYC Taxi,是无站点数据,对订单数据聚类形成266个虚拟站点

Experimental Setup

  • 研究区域是8.42km × 14.45km的矩形
  • 时间片间隔是30min
  • 特征维度 D = 2 D=2 D=2,分别表示取车和还车数
  • 用历史12步预测未来12步
  • 在邻接矩阵生成中,仅用训练数据集学习站点表示
  • 堆叠的卷积层层数为3

Main Results

Comparison with Baselines

在这里插入图片描述

Ablation Study

  • No Adaptive:邻接矩阵分解出的 E E E 不可训练
  • No Coupling:不能成对映射
  • Random Init:随机初始化 E E E
  • Distance Init:用节点间的距离表示初始化 A A A
  • PCC Init:用需求时间序列数据的皮尔逊相关系数初始化 A A A
    在这里插入图片描述

在看这篇文章时,感觉很新颖的部分在于:

  • 作者提出 Coupled Layer-wise Graph Convolution (CGC) 的卷积架构,本文实验中这个模块由3层图卷积构成,关键在于每层图卷积的邻接矩阵都是不同的。同时,也提出邻接矩阵之间的 coupled mapping 方式。
  • 本文邻接矩阵重点还是体现在不同层具有不同邻接矩阵 这方面吧,变化仅存在于不同层图卷积操作时,并没体现时间维度对于邻接矩阵的影响(印象中)。不过当这个图卷积放到GRU中,是否能体现时间维度的特性呢?(没太想清楚,回头看看代码)
  • 然后就是魔改 G R U GRU GRU 内部结构,将中间的线性连接变成作者新提出的图卷积方式。最后套在一个encoder-decoder框架上。(这个组合方式在其他文章中也有看到)
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值