Spatial-based ConvGNNs 总结

最新推荐文章于 2023-05-08 19:48:08 发布

monster.YC

最新推荐文章于 2023-05-08 19:48:08 发布

阅读量944

点赞数 3

文章标签：深度学习 gcn

本文链接：https://blog.csdn.net/weixin_43450885/article/details/106229529

版权

基于合成的空间GCNs

1.MPNNs

MPNNs模型中，将图卷积的前向传播定义为两个阶段：
1)信息传递阶段
2)读出阶段

(1)信息传递阶段

当信息传递到第 $t$ 步时，就以节点自身 $h_v^t$ 、该节点定义好的邻域的隐藏状态 $h_w^t(w\in N(v))$ 以及边的权重 $e_{vw}$ 为输入，送入信息聚合函数 $M_t(*)$ ,：
$m_v^{t+1}=\sum_{w\in N(v)}{M_t(h_v^t,h_w^t,e_{vw})}\tag1$

这个函数得到的是邻域节点信息的聚合表示。
得到 $m_v^{t+1}$ 后，再次结合节点当前的隐藏状态 $h_v^t$ ，送入顶点更新函数 $U_t(*)$ ：
$h_v^{t+1}=U_t(h_v^t,m_v^{t+1})\tag2$

该函数将 $h_v^t,m_v^{t+1}$ 以函数 $U_t$ 的方式组合得到下一步 $t + 1$ 的节点表示。
所以整个信息传递阶段的过程就是将节点邻域信息聚集，结合中心节点状态来更新中心节点，得到下一阶段的隐藏状态：
$h_v^{t+1}=U_t(h_v^t,\sum_{w\in N(v)}{M_t(h_v^t,h_w^t,e_{vw})})\tag3$

（2）读出阶段

该阶段主要是将第 $t$ 步节点的隐藏状态输入读出函数 $R (*)$ ，对整个图或者每个节点进行分类任务：
$\hat y=R({h_v^T|v\in G})\tag4$

2.DCNNs

DCNNs可以按照MPNNs框架进行划分：

（1）信息传递阶段

在信息传递阶段，DCNNs将节点相同跳的邻域节点信息聚合，不同跳的聚合后信息拼接，得到每个节点的扩散卷积表示：
$\sum_{w\in N(v)}{M_t(h_v^t,h_w^t,e_{vw})}=\sum_{l=1}^{N_t}{{(P^*_t)}_{ijl}{(X_t)}_{lm}}\tag5$

式（5）可以理解为节点 $i$ 的邻域节点定义为图上所有的节点， ${(X_t)}_{lm}$ 表示 $h_v^t,h_w^t$ 的信息；由于 $P^*_t$ 是由图的邻接矩阵 $A$ 计算得来，表示了图的结构信息，所以可以认为 ${(P^*_t)}_{ijl}$ 表示 $e_{vw}$ ， $\sum_{l=1}^{N_t}{{(P^*_t)}_{ijl}{(X_t)}_{lm}}$ 是以概率方式对节点 $i$ 的 $j$ 跳节点的一个信息聚合。
式（5）的张量表示形式为：
$M_t=P^*_t{X_t}\tag6$

其中， $M_t\in R^{N_t\times H\times F}$ 表示每个节点的各个跳 $[0, H - 1]$ 的聚合信息。在利用 $P^*_t$ 进行信息聚合时，对每个节点每个跳每个特征都有不同的权值，所以在此处没有体现权值共享的优势。
顶点更新函数 $U (*)$ 在DCNNs模型中未使用。

（2）读出阶段

在DCNNs中，实现了节点分类的读出以及图分类的读出：
节点分类：
在节点分类时，DCNNs对得到的聚合信息 $P^*_t{X_t}$ 用可学习的权值以及激活函数进行调整，之后再调整后的聚合信息展平，并将其送入全连接层和 $s o f t m a x$ 层：
$P(Y|X)=softmax(f(W^dflatten(f(W^c\bigodot M_t))))\tag7$

其中， $\bigodot$ 表示逐元素相乘， $W^c \in R^{H\times F}$ ，为训练权重；在计算 $W^c\bigodot P^*_tX_t$ ，存在广播机制，会将 $W^c$ 复制 $N_t$ 遍，然后逐元素相乘； $f(W^c\bigodot P^*_tX_t)\in R^{N_t\times H\times F}$ 。 $f l a t t e n (*)$ 表示展平，将 $f(W^c\bigodot M_t)$ 变成二维矩阵 $R^{N_t\times (HF)}$ ， $W^d\in R^{(HF)\times C}$ ， $C$ 表示分类种数。
对比式（4），式（7）可以理解为读出函数 $R (*)$ ，将每个节点的隐藏状态 $M_t$ 送入读出函数 $R (*)$ ，得到每个节点的分类结果。
图分类：
对于图分类而言，与节点分类不同之处在于读出函数多了一个加权的步骤，图分类的读出函数是将每个节点的聚合信息通过加权求和去取均值，之后用可学习的权值以及激活函数进行调整，再送入全连接层和 $s o f t m a x$ 层：
$P(Y|X)=softmax(f(W^dflatten(f(W^c\bigodot \frac{(1_{N_t})^TM_t}{N_t}))))\tag8$

其中 $M_t$ 的意义不变， $1_{N_t}\in R^{N_t\times 1}$ 表示将各个节点信息 $\in R^{H\times F}$ 聚合的权重；除以 $N_t$ 得到平均值。 $W^c$ 训练得到的加权权值。

3.PATCHY-SANs

PATCHY-SANs模型也可以概括为信息传递阶段和读出阶段，它和DCNNs模型的不同之处为在于邻域节点的选择和聚合信息的方法。

（1）信息传递阶段

确定节点邻域：
1）根据选定的图标注函数 $l$ 对图中的节点进行排序，得到有序节点集合 $V\_sort$ 。
2）根据 $V\_sort$ ，以 $s$ 为步长等间隔取出 $w$ 个节点，当节点数量 $V\_sort|$ 不足以取出 $w$ 个节点时，则创建感受野值为 $0$ 作为填充。得到 $w$ 个节点的序列。
3)对于选出的节点序列中的每一个节点 $v$ ,取它的 $1$ 邻域，如果自身和 $1 -$ 邻域的节点数目 $|N|\geq k$ ,则得到 $v$ 的感受野的候选，否则继续取它的 $2 -$ 领域等等，直到满足 $|N|\geq k$ 。对所有选定节点进行上述操作。
构建子图
可以认为节点 $v$ 和它的邻域候选节点构成原图 $G$ 的子图 $U$ ，如果邻域候选节点的数目 $∣ U ∣ > k$ ,则利用再次图标注函数 $l$ 对子图进行节点排序，在图归一化这个步骤中节点排序都必须满足约束：对于 $\forall u,w \in U$ , 当 $d (u, v) < d (w, v)$ 时，满足 $r (u) < r (w)$ ，然后取前 $k$ 个节点作为 $v$ 真正的的邻域，并得到新的新的子图 $U^{'}$ ，并对新的子图进行节点排序用来形成邻接矩阵 $A^{l}(U^{'})$ ；如果邻域候选节点的数目 $∣ U ∣ < k$ ,则添加未连接的假节点使得 $∣ U ∣ = k$ ,并对新的子图 $U^{'}$ 进行节点排序用来形成邻接矩阵 $A^{l}(U^{'})$ 。
邻域信息聚合
设 $a_n$ 为顶点特征维度， $a_m$ 为边特征维度。对于每个输入图G，在确定节点邻域和构建子图后，得到一个 $w,k,a_n)$ 顶点特征的张量和 $w;k;k;a_m)$ 边特征的张量。如下图所示（ $k = 4$ ）：
在这里插入图片描述
这些可以被重塑为一个 $w*k;a_n)$ 和 $w*k*k;a_m)$ 的张量。注意， $a_n,a_m$ 是输入通道的数量。现在可以用一维的卷积层，对子图的节点特征和结构特征进行卷积。对子图节点的卷积核为 $R^{k\times a_n\times F_n}$ ，步长为 $k$ ；对子图边的卷积核为 $R^{k^2\times a_m\times F_m }$ ，步长为 $k^2$ 。如下图所示节点信息的1维卷积（ $k = 4$ ）：
在这里插入图片描述
对边的1维卷积也类似，卷积后得到节点的聚合信息（ $\in R^{w\times F_n}$ ）和边的聚合信息（ $\in R^{w\times F_m}$ ），之后直接将这两个矩阵拼接得到最后的聚合信息（ $\in R^{w\times (F_n+F_m)}$ ）。到此将图结构数据转化为欧式结构的数据。之后的卷积只需要利用传统的1维卷积即可。
（2）读出阶段
在前面的信息传递阶段，已经将图结构数据转化为欧式结构的数据，所以读出阶段的做法也和传统的欧式数据一样，利用全连接和 $s o f y m a x$ 得到每个节点或者整个图的分类概率。
相比于DCNNs模型，在聚合信息时，PATCHY-SANs将不同跳的邻域节点利用卷积的方式直接得到隐藏状态（ $\in R^{w\times F_n}$ ），而不是像DCNNs那样，将相同跳的节点聚合不同跳的节点拼接得到隐藏状态。相比于DCNNs模型，在PATCHY-SANs中，对每个子图而言，卷积核是权值共享的。

4.GraphSage

与PATCHY-SANs模型相比较，GraphSage将获得子图的过程简化了，没有使用卷积的方式，而是定义了出了具体聚合函数形式，对节点的邻域信息进行聚合。

（1）信息传递阶段

确定邻域节点构建子图
首先需要先给定一个部分节点集合 $B$ ,这个集合是需要之后输出嵌入向量。 $N_k(v)$ 表示从节点 $v\in B^k$ 的 $k$ -邻域进行均匀采样得到节点数量固定为 $s$ 的节点集合( $k\in [1,K]$ )，如果 $k$ -邻域节点数量大于 $s$ ，则无放回抽样；如果小于 $s$ ，则有放回抽样。这个部分确定了在整个前向传播过程中需要使用到的节点，可以理解为以 $B$ 中每个节点为中心构建相应的树状子图的过程，把其他不相关的节点除去。
邻域信息聚合
1）均值聚合函数
信息聚合函数 $M (*)$ ：
$M_k=mean(h_v^{k-1},\{h_u^{k-1},\forall u\in N(v)\})\tag{9}$

顶点更新函数 $R (*)$ ：
$h_v^k=\sigma(W^k\cdot M_k)\tag{10}$

这种k层的均值聚合网络与 $k$ 层的1stChebNet网络近似。训练的参数为 $W^k$ 。
2）池化聚合函数
信息聚合函数 $M (*)$ ：
$h_{N(v)}^k=max(\{\sigma(W^k_{pool}h^k_{u_i}+b),\forall u_i\in N(v)\})\tag{11}$

其中， $W^k_{pool}h^k_{u_i}+b$ 表示多层感知机，为了简单表示，只表现了单层的结构，其目的是为了计算出每个邻域节点的特征。 $m a x (*)$ 表示逐元素取最大值，即取每个特征的最大值以捕获邻居集合上在每个维度的最突出表现（均值池化和最大池化结果没有明显区别）
顶点更新函数 $R (*)$ ：
$h_v^k=\sigma(W^k\cdot concat(h_{N(v)}^k,h_{v}^{k-1}))\tag{12}$

训练的参数为 $W^k_{pool},W^k$ 。

（2）读出阶段

利用全连接层和 $s o f y m a x$ 得到每个节点分类概率。

（3）整个过程的伪代码如下图所示：

在这里插入图片描述

5.LGCN

LGCN模型使用了与GraphSage相同的随机方法获取子图（节点的邻域信息），然后对PATCHY-SANs模型的卷积部分进行了优化。

（1）信息传递阶段

确定邻域节点构建子图
1）首先从所有节点 $N$ 中，随机采样 $N_{init}$ 个节点，表示为 $i n i t N o d e s$ ，并加入采样节点集合 $S$ ；(代码第2-3行)
2）初始化 $n e w A d d N o d e s$ ，令 $n e w A d d N o d e s$ 等于 $i n i t N o d e s$ （代码第四行）
3）从 $n e w A d d N o d e s$ 节点的1-邻域中再随机采样 $N_m$ 个节点，更新 $n e w A d d N o d e s$ ，并将新的 $n e w A d d N o d e s$ 加入采样节点集合 $S$ ;（代码6-10行）
3）循环过程（3）直到采样节点总数 $S$ 大于等于 $N_s$ 停止循环；每次迭代过程中的 $N_m$ 都为不同值。
4） $S>N_s$ 时，需要把最后一次过程（3）得到的采样节点再次采样 $N_r$ 个节点，使得 $S=N_s$ 。（代码11-14行）
伪代码如下图所示：
在这里插入图片描述
邻域信息聚合
1）利用子图的 $A$ 矩阵，找到节点 $i$ 的所有1-邻域节点 ${i_1,...,i_n\}$ 。将这 $n$ 个节点拼接成矩阵 $M_l^i \in R^{n\times C}$ ；如果 $n < k$ ，可以构造节点的所有特征都为0的伪节点进行拼接。
2）对 $M_l^i$ 矩阵每一列的值进行由大到小的排序，并选出前 $k$ 个值，得到 $\hat M_l^i\in R^{k\times C}$ 矩阵，目的是选出邻域节点的各个特征中良好表现该特征的值，之后将节点 $i$ 拼接于 $\hat M_l^i$ 的第一行，得到最后的网格化数据 $\tilde M_l^i\in R^{k+1\times C}$ ，对所有节点上述操作后得到表示节点特征的张量 $\tilde{X_l}\in R^{N\times (k+1)\times C}$ 。
3）利用一维卷积核卷积实现信息聚合操作，得到最后的输出。 $\tilde{X_l}\in R^{N\times (k+1)\times C}$ 中， $N$ 可以视为批大小 $(batch\ size)$ ， $(k + 1)$ 可以视为一维图像（样本）的大小， $C$ 可以认为每个像素的通道数。所以与传统卷积类比，卷积核的大小，与批大小无关，与输入样本的特征维度 $C$ ，输出样本维度 $D$ ，以及自定义的卷积核大小 $m$ 有关，卷积核 $\in R^{m\times C \times D}$ 。可以使用多层1-D卷积神经网络，但是对每个节点而言，多层1-D卷积神经网络之后的输出，必须还是一维向量 $\in R^{1\times D}$ ，才可以再次输入k-最大节点选择部分。最简单的卷积为卷积核大小选择为 $k + 1$ ，可以直接得到 $X_{l+1}\in R^{N\times D}$ 。
邻域信息聚合过程如下图所示：
在这里插入图片描述

（2）读出阶段

利用全连接层和 $s o f y m a x$ 得到每个节点分类概率。

monster.YC

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Spatial-based ConvGNNs 总结

1.
复制链接

扫一扫