图神经网络教程2——循环图神经网络-1

介绍

循环图神经网络(Recurrent Graph Neural Network,RGNN)。在标准神经网络中,连续的学习权重层用于从输入张量中逐步提取更高级别的特征。在用于计算机视觉的神经网络中,低级特征(如短直线和曲线)的存在是由较早的层识别的,而高级特征(如复合形状)的存在是由较晚的层识别的。在被这些顺序层处理之后,所产生的高级特征可以提供给softmax层或单个神经元,以进行分类、回归或一些其他的下游任务(downstream task)。

注:短直线等举例仅仅是为便于读者理解,在计算机的实际操作过程中,其识别的“特征”在人看来是完全无序且杂乱的。

同样地,最早的GNN通过使用一系列的特征提取操作来从图中提取高层次的特征表示,然后将这些高层次的特征路由到输出函数。换句话说:它们将输入处理为有用的嵌入,然后将嵌入处理为有用的输出,使用两个不同的处理阶段。这些早期技术存在局限性:一些算法只能处理有向无环图(DAGs),其他算法要求输入图具有“超源”(即有指向其他图中所有顶点的有向路径)的顶点,还有一些技术需要采用启发式方法来处理某些图的循环性。

通常,这些早期的递归方法依赖于将图的特殊情况“展开”为有限树(递归等价),然后可以通过递归神经网络将其处理为有用的嵌入。递归GNN对此进行了扩展,从而提供了一种可应用于泛型图的解决方案。RGNN不是通过递归的编码网络为整个输入图创建嵌入,而是通过消息传递这一信息传播框架在顶点级别创建嵌入,这将在本节定义。

循环计算嵌入

注:此处所说嵌入,一般指的是对于(节点、边、状态的)信息进行向量化表示,嵌入为取embedding的直译意。

RGNN使用称为转移函数的确定性共享函数计算输入图中每个顶点的嵌入。它被称为过渡函数,因为它可以解释为从邻域的当前表示计算邻域的下一个表示。该转换函数可以对称地应用于任何顶点,即使顶点的邻域大小可能是可变的。这个过程如图2所示,其中过渡函数𝑓为周围的邻域计算每个顶点的嵌入。

这样,对于任意一个所给节点v_i,其第k个嵌入h_i^{k}的值依赖于以下几个量:

  • 中心节点v_i^F的特征
  • 所有存在的邻接边e_{ij}^F的特征
  • 所有相邻顶点v_j^F的特征
  • 所有相邻节点上一次迭代的嵌入h_j^{k-1}

对于一个简单输入图G(V, E),具有|V| = 4, |E| = 4的RGNN正向传递。G经过𝑘层的处理。在每一层中,每个顶点的特征v_i^{F}(绿色),邻域特征N_{v_i}^F(黄色),以及前一个隐藏层(紫色)由状态转移函数𝑓处理并聚合,从而产生g的连续嵌入。注意,邻域特征必须聚合为固定的嵌入大小,否则𝑓将需要处理可变的输入大小。这将重复,直到嵌入收敛(即,连续嵌入之间的变化没有超过某个停止阈值)。在此阶段,嵌入被提供给执行某些下游任务的输出函数𝑔——在这种情况下,任务是顶点分类问题。请注意,𝑓和𝑔可以实现为神经网络,并通过展开的计算图通过监督误差信号的反向传播进行训练。请注意,在第𝑘层处理之后,每个顶点的嵌入包含了来自最大𝑘' hops '的信息。

注:这里我理解的嵌入(embedding)是类似于隐藏状态的一种变量,其表示循环神经网络处理过程中的阶段性变量,如在第一个过程中,输入节点1的信息及其嵌入,节点1的若干连接节点信息及其嵌入,使用𝑓,即使用全连接层FC进行运算,得到新的嵌入,即下一时刻嵌入,在下一时刻计算时,则输入此刻嵌入(新嵌入),而输入的X仍然是开始时的节点信息,边信息不变,可以看作是一个每时刻的输入一致的循环神经网络,通过这种方式汇聚信息,传递信息,最后通过一个g来完成Softmax归类操作。

 为了反复应用这个学习到的转换函数来计算连续的嵌入,𝑓必须具有固定数量的输入和输出变量。那么它怎么依赖于邻近邻域呢?邻近邻域的大小可能会根据我们在图中的位置而变化。有两个简单的解决方案,第一个是设置“最大邻域大小”,并在处理具有不存在邻域的顶点时使用null向量。

注:这里我理解的含义是,假定最大邻接节点数量为5,则处处输入量为5个点和5个边,小于5个连接时,全部采用NULL进行替代,向量化表示可能是一个(1,0,0,...,0)的嵌入。而在无标度图中,节点连接数量变化大,用这种方式可能出现1000个输入只有几个不是NULL的情况。

第二种方法是以某种排列不变的方式聚合所有邻域特征,从而确保图中的任何邻域都由一个固定大小的特征向量表示。虽然这两种方法都是可行的,但第一种方法不能很好地扩展到无标度图,这种图的度分布遵循幂律。由于许多现实世界的图(例如社交网络)是无标度的,我们在这里将使用第二种解决方案。在数学上,这可以表述为方程(1)

我们可以看到,在这个公式方程1下,𝑓是很好的定义。它接受四个特征向量,它们都有定义的长度,无论考虑的是图中的哪个顶点或者是迭代重复计算的问题。这意味着过渡函数可以循环地应用,直到输入图中的所有顶点都达到稳定的嵌入。这个表达式可以被解释为在整个图中传递“消息”或特征;在每次迭代中,嵌入h_i^{k}依赖于其邻居的特征和嵌入。这意味着,通过足够多的循环迭代,信息将在整个图中传播:在第一次迭代之后,任何顶点的嵌入编码了单条边范围内的邻域特征。在折中中,任何顶点的嵌入都是对邻域内两条边的特征进行编码,以此类推。迭代传递“信息”来生成图的编码是这个消息传递框架名字的来源。

注意,显式地将单位矩阵I𝑛添加到邻接矩阵A中是一种典型的行为,从而确保所有顶点都与自己相连(自环),这意味着一个顶点v_i \in N_{v_i}, \forall i \in v。此外,这允许我们通过迭代邻接矩阵的单行直接访问邻域。通常对修改后的邻接矩阵进行归一化,以防止不必要的嵌入缩放。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值