【论文笔记】Diffusion Convolutional Recurrent Neural Network: Data-driven Traffic Forecasting

最新推荐文章于 2024-06-24 22:22:01 发布

lokol.

最新推荐文章于 2024-06-24 22:22:01 发布

阅读量595

点赞数

分类专栏：论文笔记文章标签：论文阅读机器学习人工智能

本文链接：https://blog.csdn.net/weixin_42927702/article/details/127395946

版权

论文笔记专栏收录该内容

21 篇文章 2 订阅

订阅专栏

Diffusion Convolutional Recurrent Neural Network: Data-driven Traffic Forecasting

摘要

交通预测的挑战：

复杂的路网空间依赖关系；
非线性时间的道路状况动态变化；
长时预测的困难性。

DCRNN能够利用图上的双向随机步长捕获空间依赖，并利用encoder-decoder结构进行时间依赖的获取。

方法论

在该文章中，实验者利用有向图来表示交通传感器间的成对空间相关性，图中结点是传感器，边缘权值是传感器间的距离。同时，实验者将交通流动力学建模为一个扩散过程，提出了扩散卷积运算来捕捉空间依赖性。

文章将交通的空间依赖建模为一个在有向图上的扩散过程，提出了扩散卷积；
文章提出了DCRNN，使用扩散卷积来捕获空间和时间依赖；
进行了实验，甚好。

交通预测问题

将传感器网络作为一个有权有向图 $\mathcal{G}=(\mathcal{V},\varepsilon,\mathbf{W})$ ，其中 $\mathcal{V}$ 是结点集合，范数为 $N$ ， $\varepsilon$ 是边的集合， $\mathbf{W}\in \mathbb{R}^{N\times N}$ 是权重邻接矩阵。图 $\mathcal{G}$ 上的交通流被视作图信号 $\mathbf{X}\in \mathbb{R}^{N\times P}$ ，其中 $P$ 是结点特征的数量。

空间依赖建模

扩散过程是一个在图 $\mathcal{G}$ 上概率为 $\alpha\in [0,1]$ 随机的步长，并利用一个状态转移矩阵 $\mathbf{D^{-1}_O}\mathbf{W}$ ，其中 $\mathbf{D_O}=diag(\mathbf{W1})$ 是一个出度对角矩阵。经过多次时间步后，该马尔可夫过程就会收敛到一个稳定分布 $\mathcal{P}\in \mathbb{R}^{N\times N}$ ，其中 $\mathcal{P}_i\in \mathbb{R}^N$ 代表从结点 $v_i \in \mathcal{V}$ 扩散的可能性。

引理2.1：
$\mathcal{P}=\sum^{\infty}_{k=0}\alpha(1-\alpha)^k(\mathbf{D^{-1}_O})\mathbf{W})^k$
其中 $k$ 是扩散步数。在实验中，实验者使用了有限的 $K$ 步扩散过程，并且在每一步中分配了可训练的权重。同时实验中还包括了反向扩散，来增加灵活性。

扩散卷积：
$X_{:,p}\star_\mathcal{G}f_\theta=\sum^{K-1}_{k=0}(\theta_{k,1}(\mathbf{D_O^{-1}W})^k+\theta_{k,2}(\mathbf{D_I^{-1}W^T})^k)X_{:,p}\qquad for\quad p\in \{1,\cdots,P\}$
其中， $\theta\in \mathbb{R}^{K\times 2}$ 是滤波器参数， $\mathbf{D_O^{-1}W},\mathbf{D_I^{-1}W^T}$ 代表扩散过程的转移矩阵和其倒数。

扩散卷积层：

扩散卷积层可以将 $P$ 维特征映射为 $Q$ 维输出，参数张量 $\theta\in \mathbb{R}^{Q\times P\times K\times 2}=[\theta]_{q,p}$ ，其中 $\theta_{q,p,:,:}\in \mathbb{R}^{K\times 2}$ 是第 $p$ 个输入、第 $q$ 个输出对应的卷积核。
$H_{:,q}=a(\sum^{P}_{p=1}X_{:,p}\star_\mathcal{G}f_{\theta_{q,p,:,:}})\qquad for \quad q\in\{1,\cdots,Q\}$
其中 $X\in\mathcal{R}^{N\times P}$ 是输入， $H\in\mathbb{R}^{N\times Q}$ 是输出， $\{f_{\theta_q,p,:,:} \}$ 是核， $a$ 是激活函数。

时间动态建模

实验者采用GRU并将GRU中的矩阵相乘替换为了扩散卷积。
$r^{(t)}=\sigma(\theta_r\star_\mathcal{G}[X^{(t)},H^{(t-1)}]+b_r)$
$u^{(t)}=\sigma(\theta_u\star_\mathcal{G}[X^{(t)},H^{(t-1)}]+b_u)\\$
$C^{(t)}=tanh(\theta_C\star_\mathcal{G}[X^{(t)},(r^{(t)}\odot H^{(t-1)})]+b_c)\\$
$H^{(t)}=u^{(t)}\odot H^{(t-1)}+(1-u^{(t)})\odot C$
其中 $X^{(t)},H^{(t)}$ 表示时间 $t$ 时的输入和输出， $r^{(t)},u^{(u)}$ 是时间 $t$ 时的reset gate和update gate。