《GSN A Universal Graph Neural Network Inspired by Spring Network》阅读笔记

一.概述

metric learning:度量学习旨在从(弱)监督数据中学习一种度量数据对象间距离的方法。通过学习距离度量,能够让相似的对象更接近,不相似的对象相互远离。

本文作者提出了一个有理论支撑的、同时适用于同配图(homophilous graph)和异配图(heterophilous graph)的图神经网络模型Graph Spring Network(GSN)。作者表明,GSN框架从弹簧势能最小化的角度用各种度量可以解释许多现有的GNN模型。几个现实世界中同配和异配数据集上的实验表明了GSN的优越性能。

二.预备知识

数学符号表:

符号说明
X , x \mathbf{X},\mathbf{x} X,x大写粗体字母表示矩阵,小写字母代表向量
tr ⁡ ( X ) \operatorname{tr}(\mathbf{X}) tr(X)矩阵的迹, tr ⁡ ( X ) : = ∑ i X i i \operatorname{tr}(\mathbf{X}):=\sum_{i} \mathbf{X}_{i i} tr(X):=iXii
∣ X ∣ F |\mathbf{X}|_{F} XF矩阵的Forbenius范数,$|\mathbf{X}|{F}:=\sqrt{\sum{i, j}\left
∣ x ∣ p |\mathbf{x}|_{p} xp向量的 p p p范数,$|\mathbf{x}|{p}:=\left(\sum{i}\left
Hardmard积两个矩阵或向量间的逐元素积, ( X ⊙ Y ) i j = X i j Y i j (\mathbf{X} \odot \mathbf{Y})_{i j}=\mathbf{X}_{i j} \mathbf{Y}_{i j} (XY)ij=XijYij ( x ⊙ y ) i = x i y i (\mathbf{x} \odot \mathbf{y})_{i}=\mathbf{x}_{i} \mathbf{y}_{i} (xy)i=xiyi

图理论的相关概念:

符号说明
G = ( V , E ) \mathcal{G} = (\mathcal{V}, \mathcal{E}) G=(V,E)(无向)图,其中 V \mathcal{V} V E \mathcal{E} E分别表示点集和边集
A ∈ { 0 , 1 } ∣ V ∣ × ∣ V ∣ \mathbf{A} \in\{0,1\}^{|\mathcal{V}| \times |\mathcal{V}|} A{0,1}V×V图的邻接矩阵
N ( i ) : = { j : ( i , j ) ∈ E } \mathcal{N}(i):=\{j:(i, j) \in \mathcal{E}\} N(i):={j:(i,j)E}节点 i i i的邻居集合
N ( i ) ‾ : = N ( i ) ∪ { i } \overline{\mathcal{N}(i)}:=\mathcal{N}(i) \cup\{i\} N(i):=N(i){i}节点 i i i的邻居与其自身的集合
d i d_i di节点 i i i的度,即节点的邻居数
D : = diag ⁡ ( d 1 , d 2 , ⋯   , d ∣ V ∣ ) \mathbf{D}:=\operatorname{diag}\left(d_{1}, d_{2}, \cdots, d_{|\mathcal{V}|}\right) D:=diag(d1,d2,,dV)度矩阵(对角阵),其中 D i i = d i ( i = 1 , 2 , ⋯   , ∣ V ∣ ) \mathbf{D}_{i i}=d_{i}(i= 1,2, \cdots,|\mathcal{V}|) Dii=di(i=1,2,,V)
h e d g e ( G , Y ) = ∣ { ( u , v ) : ( u , v ) ∈ E ∧ Y u = Y v } ∣ ∣ E ∣ h_{\mathrm{edge}}(\mathcal{G}, \mathcal{Y})=\frac{|\{(u, v):(u, v) \in \mathcal{E} \wedge \mathcal{Y}_{u}=\mathcal{Y}_{v}\}|}{|\mathcal{E}|} hedge(G,Y)=E{(u,v):(u,v)EYu=Yv}边同构率,即所有边中相同类别节点间边所占的比例
L : = D − A \mathbf{L}:= \mathbf{D}-\mathbf{A} L:=DA图的拉普拉斯矩阵,由于是无向图,所有拉普拉斯矩阵是实对称的,其可以被分解为 L = U ⊤ Λ U \mathbf{L}=\mathbf{U}^{\top} \boldsymbol{\Lambda} \mathbf{U} L=UΛU,其中 Λ = diag ⁡ ( λ 1 , λ 2 , ⋯   , λ ∣ V ∣ ) \mathbf{\Lambda}=\operatorname{diag}\left(\lambda_{1}, \lambda_{2}, \cdots, \lambda_{|\mathcal{V}|}\right) Λ=diag(λ1,λ2,,λV)表示拉普拉斯矩阵的特征值, U \mathbf{U} U是特征值所对应的特征向量。
L sym  : = D − 1 2 L D − 1 2 = I − D − 1 2 A D − 1 2 \mathbf{L}^{\text {sym }}:=\mathbf{D}^{-\frac{1}{2}} \mathbf{L} \mathbf{D}^{-\frac{1}{2}}=\mathbf{I}-\mathbf{D}^{-\frac{1}{2}} \mathbf{A} \mathbf{D}^{-\frac{1}{2}} Lsym :=D21LD21=ID21AD21正则化的拉普拉斯矩阵
P sym  = D − 1 2 A D − 1 2 \mathbf{P}^{\text {sym }}= \mathbf{D}^{-\frac{1}{2}} \mathbf{A} \mathbf{D}^{-\frac{1}{2}} Psym =D21AD21正则化的邻接矩阵

图的拉普拉斯矩阵有两个重要的性质:半正定、 λ 1 = 0 \lambda_{1}=0 λ1=0是最小的特征值, 1 \mathbf{1} 1是其对应的特征向量。

三.GSN模型

3.1 模型提出的动机

什么是好的节点嵌入:一个好的节点嵌入将使任意两个相连的同配性节点靠近,并将任意两个相连的异配性节点推远。例如下图中,直观地说,图右所对应的节点嵌入要更好,因为它更容易将节点划分为不同的类。

node embedding cmp

Spring Network:作者使用弹簧网络来建模同配性节点或异配性节点间的边,即拉近相似对象间的距离,拉远不相似对象间的距离。在图2中,作者把节点间的边看作弹簧,最初同配性边是延申的弹簧,异配性边是压缩的弹簧。随着Spring网络的自由演化,系统的总势能最小化。具有相同属性的节点被拉近,而具有不同属性的节点被拉远,使得具有不同标签的节点更容易分离。

spring network

假设两个节点的坐标为 x 1 , x 2 ∈ R d \mathbf{x_1},\mathbf{x_2} \in \mathbb{R}^d x1,x2Rd,根据胡克定律和弹性势能的计算公式,节点1对节点2施加的力以及两个节点间的弹性势能为:
F 12 = k ( ∣ ∣ r 1 − r 2 ∣ ∣ 2 − l 0 ) r 1 − r 2 ∣ ∣ r 1 − r 2 ∣ ∣ 2 E p = 1 2 k ( ∣ ∣ r 1 − r 2 ∣ ∣ 2 − l 0 ) 2 \begin{aligned} \mathbf{F}_{12} &= k(||\mathbf{r}_1 - \mathbf{r}_2||_2 - l_0) \frac{\mathbf{r}_1 - \mathbf{r}_2}{||\mathbf{r}_1 - \mathbf{r}_2||_2} \\ E_p &= \frac{1}{2}k(||\mathbf{r}_1 - \mathbf{r}_2||_2 - l_0)^2 \end{aligned} F12Ep=k(∣∣r1r22l0)∣∣r1r22r1r2=21k(∣∣r1r22l0)2

胡克定律:在弹性限度内,弹簧的弹力 F \mathbf{F} F和弹簧的长度变化量 x \mathcal{x} x(当前长度 l l l减去松弛长度 l 0 l_0 l0)成线性关系,即 F = − k x \mathbf{F} = -k\mathbf{x} F=kx

弹性势能:弹簧的弹性势能的计算公式为 E p = 1 2 k ∣ ∣ x ∣ ∣ 2 E_p = \frac{1}{2}k||\mathbf{x}||^2 Ep=21k∣∣x2

3.2 弹性势能函数

度量矩阵 M \mathbf{M} M:给定图 G = ( V , E ) \mathcal{G}=(\mathcal{V}, \mathcal{E}) G=(V,E) ,其初始节点嵌入为 Z ( 0 ) \mathbf{Z}^{(0)} Z(0),将每条边 ( i , j ) (i,j) (i,j)看作一个弹簧,其初始长度为 ∥ Z i : ( 0 ) − Z j : ( 0 ) ∥ 2 \| \mathbf{Z}_{i:}^{(0)}- \mathbf{Z}_{j:}^{(0)} \|_{2} Zi:(0)Zj:(0)2,初始势能为 E i j \mathbf{E}_{i j} Eij E ∈ R ≥ 0 n × n \mathbf{E} \in \mathbb{R}_{\geq 0}^{n \times n} ER0n×n表示弹性势能矩阵)。弹簧 ( i , j ) (i,j) (i,j)的松弛长度为 M i j M_{i j} Mij M ∈ R ≥ 0 n × n \mathbf{M} \in \mathbb{R}_{\geq 0}^{n \times n} MR0n×n为松弛长度矩阵)。根据弹性势能公式可知 E i j = 1 2 k i j ( ∥ Z i : ( 0 ) − Z j : ( 0 ) ∥ 2 − M i j ) 2 \mathbf{E}_{i j}=\frac{1}{2} k_{i j}\left(\left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2}-\mathbf{M}_{i j}\right)^{2} Eij=21kij( Zi:(0)Zj:(0) 2Mij)2,通过其可以导出:
M i j = A i j ( ∥ Z i : ( 0 ) − Z j : ( 0 ) ∥ 2 ± 2 E i j k i j ) = { 0 , ( i , j ) ∉ E ∥ Z i : ( 0 ) − Z j : ( 0 ) ∥ 2 + 2 E i j k i j , ( i , j )  compressed  ∥ Z i : ( 0 ) − Z j : ( 0 ) ∥ 2 − 2 E i j k i j , ( i , j )  stretched.  \begin{aligned} \mathbf{M}_{i j} &=\mathbf{A}_{i j}\left(\left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2} \pm \sqrt{\frac{2 \mathbf{E}_{i j}}{k_{i j}}}\right) \\ &= \begin{cases}0, & (i, j) \notin \mathcal{E} \\ \left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2}+\sqrt{\frac{2 \mathbf{E}_{i j}}{k_{i j}}}, & (i, j) \text { compressed } \\ \left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2}-\sqrt{\frac{2 \mathbf{E}_{i j}}{k_{i j}},} & (i, j) \text { stretched. }\end{cases} \end{aligned} Mij=Aij( Zi:(0)Zj:(0) 2±kij2Eij )= 0, Zi:(0)Zj:(0) 2+kij2Eij , Zi:(0)Zj:(0) 2kij2Eij, (i,j)/E(i,j) compressed (i,j) stretched. 
作者使用一个软变量 α i j ∈ [ − 1 , 1 ] \alpha_{ij} \in [-1,1] αij[1,1]来指示弹簧 ( i , j ) (i,j) (i,j)最初是拉伸还是压缩,并重参数化 E i j ≡ 2 E i j / k i j \mathbf{E}_{i j} \equiv 2 \mathbf{E}_{i j} / k_{i j} Eij2Eij/kij,则可得:
M i j = A i j ( ∥ Z i : ( 0 ) − Z j : ( 0 ) ∥ − α i j E i j ) \mathbf{M}_{i j}=\mathbf{A}_{i j}\left(\left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|-\alpha_{i j} \sqrt{\mathbf{E}_{i j}}\right) Mij=Aij( Zi:(0)Zj:(0) αijEij )

弹簧最初拉伸时 α i j \alpha_{ij} αij接近1,并对应一条同配性边;当 α i j \alpha_{ij} αij接近-1时,弹簧被压缩,并对应于异配性边。


α i j \alpha_{ij} αij的获取:假设节点 i , j i,j i,j的嵌入分别为: h i , h j \mathbf{h}_i,\mathbf{h_j} hi,hj,作者使用注意力机制来获取 α i j \alpha_{ij} αij。与平常计算得到的attention score不同的时,本文的attention score可以为负数。


最初能量矩阵 E \mathbf{E} E的获取:直观地说, E \mathbf{E} E应该是初始节点嵌入 Z ( 0 ) \mathbf{Z}^{(0)} Z(0)和拉伸/压缩注意力 α i j \alpha_{ij} αij的函数。此外,它还需满足三个性质:

  • 非负性:弹簧弹性势能肯定是大于等于0 的;
  • 同配性限制:当 α → 1 − \alpha \rightarrow 1^{-} α1时, M i j → 0 \mathbf{M}_{i j} \rightarrow 0 Mij0,即 E i j → ∥ Z i : ( 0 ) − Z j : ( 0 ) ∥ 2 2 \mathbf{E}_{i j} \rightarrow\left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2}^{2} Eij Zi:(0)Zj:(0) 22
  • 异配性限制:当 α → − 1 + \alpha \rightarrow -1^{+} α1+时, M i j → + ∞ \mathbf{M}_{i j} \rightarrow +\infin Mij+,即 E i j → + ∞ \mathbf{E}_{i j} \rightarrow +\infin Eij+

基于此,作者提出的最初能量矩阵的计算公式为:
E i j = 4 ∥ Z i : ( 0 ) − Z j : ( 0 ) ∥ 2 2 ( α i j + 1 ) 2 \mathbf{E}_{i j}=\frac{4\left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2}^{2}}{\left(\alpha_{i j}+1\right)^{2}} Eij=(αij+1)24 Zi:(0)Zj:(0) 22
则对应的 M i j \mathbf{M}_{i j} Mij为:
M i j = ∥ Z i : ( 0 ) − Z j : ( 0 ) ∥ 2 − 2 α i j α i j + 1 ∥ Z i : ( 0 ) − Z j : ( 0 ) ∥ 2 = 1 − α i j 1 + α i j ∥ Z i : ( 0 ) − Z j : ( 0 ) ∥ 2 \begin{aligned} \mathbf{M}_{i j} & =\left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2}-\frac{2 \alpha_{i j}}{\alpha_{i j}+1}\left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2} \\ &=\frac{1-\alpha_{i j}}{1+\alpha_{i j}} \| \mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)} \|_{2} \end{aligned} Mij= Zi:(0)Zj:(0) 2αij+12αij Zi:(0)Zj:(0) 2=1+αij1αijZi:(0)Zj:(0)2


嵌入势能函数:给定度量矩阵 M \mathbf{M} M和节点嵌入 Z \mathbf{Z} Z,则弹性势能的计算公式为:
E p ( Z ; G , M ) = ∑ ( i , j ) ∈ E 1 2 k i j ( ∥ Z i : − Z j : ∥ 2 − M i j ) 2 = ∑ i , j A i j ( ∥ Z i : − Z j : ∥ 2 2 − 2 M i j ∥ Z i : − Z j : ∥ 2 + M i j 2 ) = tr ⁡ ( Z ⊤ L Z ) − 2 ∑ i , j M i j ∥ Z i : − Z j : ∥ 2 + ∥ M ∥ F 2 = tr ⁡ ( Z ⊤ L Z ) − 2 1 ⊤ ( M ⊙ D 2 ( Z ) ⊙ 1 2 ) 1 + ∥ M ∥ F 2 \begin{aligned} & E_{p}(\mathbf{Z} ; \mathcal{G}, \mathbf{M}) \\ =& \sum_{(i, j) \in \mathcal{E}} \frac{1}{2} k_{i j}\left(\left\|\mathbf{Z}_{i:}-\mathbf{Z}_{j:}\right\|_{2}-\mathbf{M}_{i j}\right)^{2} \\ =& \sum_{i, j} \mathbf{A}_{i j}\left(\left\|\mathbf{Z}_{i:}-\mathbf{Z}_{j:}\right\|_{2}^{2}-2 \mathbf{M}_{i j}\left\|\mathbf{Z}_{i:}-\mathbf{Z}_{j:}\right\|_{2}+\mathbf{M}_{i j}^{2}\right) \\ =& \operatorname{tr}\left(\mathbf{Z}^{\top} \mathbf{L} \mathbf{Z}\right)-2 \sum_{i, j} \mathbf{M}_{i j}\left\|\mathbf{Z}_{i:}-\mathbf{Z}_{j:}\right\|_{2}+\|\mathbf{M}\|_{F}^{2} \\ =& \operatorname{tr}\left(\mathbf{Z}^{\top} \mathbf{L} \mathbf{Z}\right)-2 \mathbf{1}^{\top}\left(\mathbf{M} \odot \mathfrak{D}^{2}(\mathbf{Z})^{\odot \frac{1}{2}}\right) \mathbf{1}+\|\mathbf{M}\|_{F}^{2} \end{aligned} ====Ep(Z;G,M)(i,j)E21kij(Zi:Zj:2Mij)2i,jAij(Zi:Zj:222MijZi:Zj:2+Mij2)tr(ZLZ)2i,jMijZi:Zj:2+MF2tr(ZLZ)21(MD2(Z)21)1+MF2
其中 ( D 2 ( Y ) ) i j = ∥ Y i : − Y j : ∥ 2 2 \left(\mathfrak{D}^{2}(\mathbf{Y})\right)_{i j}=\left\|\mathbf{Y}_{i:}-\mathbf{Y}_{j:}\right\|_{2}^{2} (D2(Y))ij=Yi:Yj:22 ( Y ⊙ k ) i j = ( Y i j ) k \left(\mathbf{Y}^{\odot k}\right)_{i j}=\left(\mathbf{Y}_{i j}\right)^{k} (Yk)ij=(Yij)k

显而易见, E p ( Z ; G , M ) ≥ 0 E_{p}(\mathbf{Z} ; \mathcal{G}, \mathbf{M}) \geq 0 Ep(Z;G,M)0,其值为 0 0 0当且仅当 ∀ ( i , j ) ∈ E , ∥ Z i : − Z j : ∥ 2 = M i j \forall(i, j) \in \mathcal{E},\left\|\mathbf{Z}_{i:}-\mathbf{Z}_{j}:\right\|_{2}=\mathbf{M}_{i j} (i,j)E,Zi:Zj:2=Mij,此时节点之间的距离与度量矩阵 M \mathbf{M} M相同。

3.3 GSN框架

许多物理过程倾向于最小化系统的总势能。对于GSN也是如此,将一个spring网络放入一个有阻力的介质中,让系统自由进化。当系统处于平衡状态时,最终嵌入 Z ∗ = arg ⁡ min ⁡ Z E p ( Z ; G , M ) \mathbf{Z}^{*}=\arg \min _{\mathbf{Z}} E_{p}(\mathbf{Z} ; \mathcal{G}, \mathbf{M}) Z=argminZEp(Z;G,M)

作者重参数 Z \mathbf{Z} Z Z = D − 1 / 2 Z \mathbf{Z}=\mathbf{D}^{-1 / 2} \mathcal{Z} Z=D1/2Z,正则化后的能量计算公式为:
E p ~ ( Z ; G , M ) = E p ( Z ; G , M ) = tr ⁡ ( Z ⊤ L Z ) − 2 ∑ i , j M i j ∥ D − 1 2 Z i : − D − 1 2 Z j : ∥ 2 + ∥ M ∥ F 2 = tr ⁡ ( Z ⊤ L s y m Z ) − 2 1 ⊤ ( M ⊙ D 2 ( D − 1 2 Z ) ⊙ 1 2 ) 1 + ∥ M ∥ F 2 \begin{aligned} & \tilde{E_{p}}(\mathcal{Z} ; \mathcal{G}, \mathbf{M}) \\ =& E_{p}(\mathbf{Z} ; \mathcal{G}, \mathbf{M}) \\ =& \operatorname{tr}\left(\mathcal{Z}^{\top} \mathbf{L Z}\right)-2 \sum_{i, j} \mathbf{M}_{i j}\left\|\mathbf{D}^{-\frac{1}{2}} \mathcal{Z}_{i:}-\mathbf{D}^{-\frac{1}{2}} \mathcal{Z}_{j:}\right\|_{2}+\|\mathbf{M}\|_{F}^{2} \\ =& \operatorname{tr}\left(\mathcal{Z}^{\top} \mathbf{L}^{\mathrm{sym}} \mathcal{Z}\right)-2 \mathbf{1}^{\top}\left(\mathbf{M} \odot \mathfrak{D}^{2}\left(\mathbf{D}^{-\frac{1}{2}} \mathcal{Z}\right)^{\odot \frac{1}{2}}\right) \mathbf{1}+\|\mathbf{M}\|_{F}^{2} \end{aligned} ===Ep~(Z;G,M)Ep(Z;G,M)tr(ZLZ)2i,jMij D21Zi:D21Zj: 2+MF2tr(ZLsymZ)21(MD2(D21Z)21)1+MF2
根据物理学中的局部性概念,作者认为最佳解应当接近初始嵌入 Z ( 0 ) \mathbf{Z}^{(0)} Z(0),为此,作者添加了一个权衡的正则化项 α ∥ Z − Z ( 0 ) ∥ F 2 \alpha\left\|\mathbf{Z}-\mathbf{Z}^{(0)}\right\|_{F}^{2} α ZZ(0) F2

则最终的优化目标为:
E = ( 1 − α ) E p ~ ( Z ; G , M ) + α ∣ ∣ Z − Z ( 0 ) ∣ ∣ F 2 E=(1-\alpha) \tilde{E_{p}}(\mathbf{Z} ; \mathcal{G}, \mathbf{M})+\alpha || \mathbf{Z}-\mathbf{Z}^{(0)} ||_{F}^{2} E=(1α)Ep~(Z;G,M)+α∣∣ZZ(0)F2
作者用 H \mathbf{H} H表示 M ⊙ D 2 ( D − 1 2 Z ) ⊙ − 1 2 \mathbf{M} \odot \mathfrak{D}^{2}\left(\mathbf{D}^{-\frac{1}{2}} \mathbf{Z}\right)^{\odot-\frac{1}{2}} MD2(D21Z)⊙−21,求 E E E关于 Z \mathbf{Z} Z的偏导数为:
∂ E ∂ Z = 2 ( 1 − α ) ( L sym  − 2 L H sym  ) Z + 2 α ( Z − Z ( 0 ) ) \frac{\partial E}{\partial \mathbf{Z}}=2(1-\alpha)\left(\mathbf{L}^{\text {sym }}-2 \mathbf{L}_{\mathbf{H}}^{\text {sym }}\right) \mathbf{Z}+2 \alpha\left(\mathbf{Z}-\mathbf{Z}^{(0)}\right) ZE=2(1α)(Lsym 2LHsym )Z+2α(ZZ(0))
其中 L H \mathbf{L}_{\mathbf{H}} LH表示 diag ⁡ ( H 1 ) − H \operatorname{diag}(\mathbf{H} \mathbf{1})-\mathbf{H} diag(H1)H,若将 H \mathbf{H} H看作某个图的邻接矩阵,则 diag ⁡ ( H 1 ) − H \operatorname{diag}(\mathbf{H 1})- \mathbf{H} diag(H1)H可以看作该图的拉普拉斯矩阵。让偏导数为0,即:
∂ E ∂ Z = O ⇔ ( 1 − α ) ( ( I − P s y m ) − 2 L H s y m ) Z + α ( Z − Z ( 0 ) ) = O ⇔ Z = ( 1 − α ) P s y m Z + 2 ( 1 − α ) L H s y m Z + α Z ( 0 ) \begin{aligned} &\frac{\partial E}{\partial \mathbf{Z}}=\mathbf{O} \\ &\Leftrightarrow(1-\alpha)\left(\left(\mathbf{I}-\mathbf{P}^{\mathrm{sym}}\right)-2 \mathbf{L}_{\mathbf{H}}^{\mathrm{sym}}\right) \mathbf{Z}+\alpha\left(\mathbf{Z}-\mathbf{Z}^{(0)}\right)=\mathbf{O} \\ &\Leftrightarrow \mathbf{Z}=(1-\alpha) \mathbf{P}^{\mathrm{sym}} \mathbf{Z}+2(1-\alpha) \mathbf{L}_{\mathbf{H}}^{\mathrm{sym}} \mathbf{Z}+\alpha \mathbf{Z}^{(0)} \end{aligned} ZE=O(1α)((IPsym)2LHsym)Z+α(ZZ(0))=OZ=(1α)PsymZ+2(1α)LHsymZ+αZ(0)
作者将 P sym  Z \mathbf{P}^{\text {sym }} \mathbf{Z} Psym Z看作拓扑信息,将 L H sym  Z \mathbf{L}_{\mathrm{H}}^{\text {sym }} \mathbf{Z} LHsym Z看作位置信息,通过解耦两类信息的系数,并引入renormalization trick非线性得到GSN传播层的更新规则如下:
Z ( k + 1 ) = σ ( ( ( ( 1 − α ) P ~ s y m + 2 β L H s y m ) Z ( k ) + α Z ( 0 ) ) W ( k ) ) \mathbf{Z}^{(k+1)}=\sigma \left(\left(\left((1-\alpha) \tilde{\mathbf{P}}^{\mathrm{sym}}+2 \beta \mathbf{L}_{\mathrm{H}}^{\mathrm{sym}}\right) \mathbf{Z}^{(k)}+\alpha \mathbf{Z}^{(0)}\right) \mathbf{W}^{(k)}\right) Z(k+1)=σ((((1α)P~sym+2βLHsym)Z(k)+αZ(0))W(k))
GSN的框架图如下所示,在该框架中, Z ( 0 ) \mathbf{Z}^{(0)} Z(0)是对节点特征 X \mathbf{X} X进行降维来获取到的,作者使用一个单线性层或GCN层来进行降维。然后通过一个度量层来计算节点间的度量矩阵 M \mathbf{M} M,同时初始嵌入通过 k k k个传播层以获取最终的节点嵌入。

GSN Framework

论文附录中还有关于GSN的Message Passing传播机制。

四.实验

实验的数据集为(红框中的为异配图数据集):

datasets

半监督节点分类实验

作者将GSN与一众baseline在半监督节点分类任务上进行了对比。

semi-supervised node classification

结论:GSN在同配图和异配图上都表现良好。

Over-smoothing问题实验

作者设置图卷积的层数分别为4、16、64来观测GSN与baseline在过平滑问题上的性能表现。

oversmoothing-exp

结论:GSN在同配性和异配性数据集上都不会出现过平滑问题。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

斯曦巍峨

码文不易,有条件的可以支持一下

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值