三篇动态图文章JODIE DYREP TGN的理解

最新推荐文章于 2023-05-30 16:55:16 发布

Rising_Flashlight

最新推荐文章于 2023-05-30 16:55:16 发布

阅读量1.3k

点赞数 4

文章标签： python 算法大数据

本文链接：https://blog.csdn.net/Rising_shit/article/details/118585819

版权

三篇动态图文章DyRep JODIE TGN的理解

文章目录

三篇动态图文章DyRep JODIE TGN的理解

一、背景

被抽象出的图往往会随着时间发生变化，新增或删除节点与边、如科研学术网络、商品购买抽象出的异质图等，但是传统的方法往往都是在一种固定的图结构上做，如GCN、TGN等，难以在图结构的层次考虑到这种时序的关系，因此如果能进行一种动态图卷积来考虑不同时刻的不同图结构，可能可以提升学习的准确性，而很多动态图的文章都是基于时间片的，但是时间片难以划分，学习到时间的变化更好。因此我读了三篇比较经典的文章，分别为

DYREP: LEARNING REPRESENTATIONS OVER DYNAMIC GRAPHS， ICLR 2019

Predicting Dynamic Embedding Trajectory in Temporal Interaction Networks, KDD2019

TEMPORAL GRAPH NETWORKS FOR DEEP LEARNING ON DYNAMIC GRAPHS, maybe ICLR2021

二、DyRep

作者将图结构的变化分为两种过程，一种是Topological Evolution，即拓扑结构的变化，另一种是Node Interaction，即点和点的交互，这个想法很有意思，感觉确实能比较概括性的概括动态图的过程，而很直接的，作者提出了求出每个点Embedding的方法
$z^v(t_p) = \sigma(W^{struct}h_{struct}^u(\overline{t_p})+W^{rec}z^v(\overline{t^v_p})+W^t(t_p-\overline{t_p^v}))$
其中p是时间点，v是点v， $\overline{t_p}$ 指的是和点v在 $t_p$ 发生交互的之前的的上一个时间点。

假设对每个点求好了它的表征 $z$ ，作者定义了一种概率密度函数 $\lambda^{u,v}_k(t)$ ，表示了u,v在t这个时刻有发生了事件，k=0表示发生了连边，k=1表示发生了交互，式子为
$\lambda^{u,v}_k(t) = f_k(g_k^{u,v}(\overline{t}))，其中\\ g_k^{u,v}=\omega_k^T\cdot[z^u(\overline t);z^v(\overline t)],\ f_k(x)=\psi_k\log(1+\exp(x/\psi _k))$
其中 $\psi_k$ 是为了统一连边操作和交互操作的范围而学习的参数。值得一提的是，上面的这些表征可以理解为和时间t相关的函数。这样才能理解为什么时间t的概率密度可以通过上一个时间来求。

2.1 任务

先假设我们有了上面的一些式子，DyRep提出了两种任务，Dynamic Link Prediction以及Event Time Prediction

对于Dynamic Link Prediction

作者的目标是最优化它定义的在 $t$ 时刻发生关系的概率密度
$f_{k}^{u,v}(t) = \lambda^{u,v}_k(t)\cdot \exp (\int_{\overline t}^t\lambda(s)ds)$
其中 $\lambda(s)$ 是s这个时刻发生事件的概率密度，文中讲到一般使用泊松过程来模拟，而 $\exp (\int_{\overline t}^t\lambda(s)ds)$ 指的是在两个时间内没有任何事件发生的概率。

而对于Event Time Prediction

作者使用了Dynamic Link Prediction定义的 $f_k^{u,v}(t)$ ，并通过计算期望时间来计算发生的时间，即
$\hat t = \int _t^\infty t f_k^{u,v}(t)dt$
先将任务主要感觉构造的还是很有趣的，而且如果记不住咋做了，记住任务怎么做，直接用也不错。

2.2 模型过程

$z^v(t_p) = \sigma(W^{struct}h_{struct}^u(\overline{t_p})+W^{rec}z^v(\overline{t^v_p})+W^t(t_p-\overline{t_p^v}))$

再次回顾这个式子，三个项里第三个指的是一个和时间相关的项，直接求即可，第二个项是一个自相关的项，通过自己和自己之前的表征进行卷积也直接求即可，第一个项指的是结构上聚合，重点显然是如何在结构上进行聚合，通过attention即可。

作者定义了一个矩阵 $\in n\times n$ 表示点与点关系的强度，当聚合到点u时，通过这个矩阵计算注意力机制的系数 $q_{ui}(t)=\frac {\exp(S_{ui}(\overline t))} {\sum_{i'\in N_u(t)}\exp(S_{ui'}(\overline t)) }$ ，以此来求得 $h_{struct}^u(\overline{t_p})=\max({\sigma(q_{ui}(t)\cdot h^i(t))})$ ，其中 $i$ 是 $u$ 的邻居， $h^i(t)=W^hz^i(t)+b^h$

对于矩阵S的更新过程如下图，A是图的邻接矩阵。大致为

如果是不相邻的点的交互，则不管；

如果是之前有边，也不管；

如果是相邻点的交互，则给两个点的 $S_{u,v}$ 加上前文定义的概率密度 $\lambda_k^{u,v}(t)$ ，注意顺序有一些区别。

如果是连边操作，先给两个点的 $S_{u,v}$ 减去前文定义的概率密度 $\lambda_k^{u,v}(t)$ ，注意顺序；其他与u或v连接的点，减去一个跟邻居集合大小相关的数即可。

在这里插入图片描述

三 JODIE

JODIE考虑了静态的Embedding即one hot编码，记作 $\overline{u}$ ，而将我们常常说的学到的表征即动态的表征记作了 $u$ ，而与此同时呢，它将t的上一个时刻发生的事件记作了 $t^-$ 。

3.1 对于表征的更新

由于JODIE考虑的二元关系，如用户和商品的关系，当u和i在t产生交互时，会更新他们两个的表征即
$\sigma(W_1^u u(t^-)+W_2^ui(t^-)+W_3^uf+W_4^u\Delta_u)\\ i(t) = \sigma(W_1^i i(t^-)+W_2^iu(t^-)+W_3^if+W_4^i\Delta_i)$
式子相对来说比较简单，f指的是这条连边的特征， $\Delta$ 指的是u发生两次更新的时间差。

3.2 对于预测未来最可能交互的点

JODIE比较巧妙的一点是考虑了点u在预测的时刻特征可能发生的变化。在预测点u在 $\Delta$ 时刻之后最有可能交互的点时，先计算了 $w=W_p\Delta$ ，并通过 $\hat u (t+\Delta) = (1+w)*u(t)$ 得到预测的u在 $\Delta$ 时刻之后预测的表征。

接着由于在JODIE的问题背景下，点的规模非常大，每次枚举每个点算连边概率复杂度较大，因此作者直接提出了一种计算预测交互的点的Embedding的方法，找最近的即可，即
$\tilde{j}(t+\Delta) = W_1 \hat u (t+\Delta)+ W_2\overline u + W_3 i (t+\Delta^-)+W_4\overline i + B$
即考虑u这个点上一时刻的表征， $u$ 的 $o n e h o t$ 编码， $i$ 的最新的表征， $i$ 的 $o n e h o t$ 表征即可。

指的一提的是作者害提出了一种称作为T-batch的方法，选取互不相交的几个集合同时进行训练

四 TGN

TGN的作者则提出了一种比较统一的动态图的结构，并声称大多数算法都可以用这种结构来表示。

3.1 Memory部分

这一部分用来储存关于点 $i$ 历史的信息。

假设 $i$ 和 $j$ 在 $t$ 时刻发生了联系，则对点 $i$ 和点 $j$ 分别求一个关于这个信息的表征 $m_i,m_j$ ，即
$m_i(t)=msg_s(s_i(t^-),s_j(t^-),\Delta t,e_{ij}(t))\\ m_j(t)=msg_d(s_j(t^-),s_i(t^-),\Delta t,e_{ij}(t))$
其中 $s_i$ 和 $s_j$ 就是用来存储过去信息的表征， $m s g$ 可以是任意一种学习模型，如MLP等。

而又由于一个Batch一个点可能多次参与交互，因此还需一个聚合函数，来聚合一个batch内的信息，即
$\overline m_i (t) = agg(m_i(t_1),\dots,m_i(t_b))$
聚合函数可以为最近的那一个或者平均值等

而最后更新一个点的memory部分，可以通过一个LSTM等的函数进行与之前这个点的memory聚合，即
$s_i(t) = mem(\overline m_i(t),s_i(t^-))$

3.2 Embedding部分

当有了过去的信息之后通过某种embed函数即可聚合出一个点的表征，即
$z_i(t) = emb(i,t) = \sum_{j\in N^k_i[0,t]}h(s_i(t),s_j(t),e_{ij},v_i(t),v_j(t))$
$e m b$ 的函数则有很多选择，如

直接使用3.1中的 $s_i(t)$
使用 $Time\ Encoding$ 的方式， $emb(i,t)=(1+\Delta w)\circ s_i(t)$
使用 $Temporal\ Graph \ Sum$ 的方式，即
$h_i^{l}(t) = W_2^l(h_i^{l-1}||\tilde h _i^l(t))，其中\\ \tilde h _i^l(t) = ReLu(\sum_{j\in N_i[0,t]}W_1^l(h_j^{l-1}(t)||e_{ij}||\phi(t-t_j)))$
使用 $Temporal\ Graph\ Attention$ 的方法，

$h_i^{l}(t) = W_2^l(h_i^{l-1}||\tilde h _i^l(t))，其中 \\\tilde h _i^l(t) = MultiHeadAttention^l(q^l(t),K^l(t),V^l(t))\\ q^l(t) = h_i^{l-1}(t)||\phi(0)\\ K^l(t) = V^l(t)=C^l(t)\\ C^l(t) = [h_1^{l-1}||e_{i1}(t_1)||\phi(t-t1),\dots,h_N^{l-1}||e_{iN}(t_N)]$

其中 $\phi(t-t')$ 是一种 $t i m e e n c o d i n g$ 的方式。

五一点想法

正如JODIE所说，一个点可能长时间的不被更新到，导致它的表征缺少了对当前状态的感知，因此如果所有点的表征都能在同一时刻得到更新，那么学习能力应该会强一些。
很多动态图的结构应该可以更宏观的看，某个时刻是A地区和B地区进行交互，我觉得这是一种dynamic graph pooling不过研究的人似乎很少，不过类似的graph coarsening 研究者倒是有一些。
很多动态图结构会随着时间变化存在周期性，这是动态子图的表示学习的范畴，我觉得可能会很有用。