文献阅读13期:Deep Learning on Graphs: A Survey - 2

[ 文献阅读·综述 ] Deep Learning on Graphs: A Survey [1]

推荐理由:图神经网络的survey paper,在很多的领域展现出了独特的作用力,分别通过GRAPH RNN(图循环网络)、GCN(图卷积)、GRAPH AUTOENCODERS(图自编码器)、GRAPH REINFORCEMENT LEARNING(图强化学习模型)、GRAPH ADVERSARIAL METHODS(图对抗模型)等五个类型的模型进行阐述,可以让大家对图神经网络有一个整体的认识

4. 图卷积网络(Graph Convolutional Networks)

  • 下表首先展现了一部分GCN的特性:
    在这里插入图片描述
    可以看出,目前提出的图卷积网络还是非常丰富的。

4.1.卷积运算

  • 卷积运算在CNNs中非常常见,但它并不能直接应用在图网络当中,因为图网络没有Grid结构。

4.1.1.谱方法

  • 图拉普拉斯矩阵被引入,它的功能类似于信号处理中的傅里叶基,图的卷积操作 ∗ G * G G,可以定义为如下形式:
    u 1 ∗ G u 2 = Q ( ( Q T u 1 ) ⊙ ( Q T u 2 ) ) (5) \mathbf{u}_{1} *_{G} \mathbf{u}_{2}=\mathbf{Q}\left(\left(\mathbf{Q}^{T} \mathbf{u}_{1}\right) \odot\left(\mathbf{Q}^{T} \mathbf{u}_{2}\right)\right)\tag{5} u1Gu2=Q((QTu1)(QTu2))(5)
    其中 u 1 , u 2 ∈ R N \mathbf{u}_{1}, \mathbf{u}_{2} \in \mathbb{R}^{N} u1,u2RN是两种定义在节点上的信号, Q \mathrm{Q} Q L \mathrm{L} L的特征向量。
  • 通过和 Q T \mathbf{Q}^{T} QT相乘,即可将图信号 u 1 , u 2 \mathbf{u}_{1}, \mathbf{u}_{2} u1,u2转换到谱域当中。而与 Q \mathbf{Q} Q相乘,则是实施逆运算。
  • 通过转换后输出信号可以表示为:
    u ′ = Q Θ Q T u (6) \mathbf{u}^{\prime}=\mathbf{Q} \Theta \mathbf{Q}^{T} \mathbf{u}\tag{6} u=QΘQTu(6)
    其中, Θ = Θ ( Λ ) ∈ R N × N \boldsymbol{\Theta}=\boldsymbol{\Theta}(\boldsymbol{\Lambda}) \in \mathbb{R}^{N \times N} Θ=Θ(Λ)RN×N是一个可训练filters的对角阵, Λ \boldsymbol{\Lambda} Λ L \mathrm{L} L的特征值。
  • 一个卷积层可以对不同的输入输出对施加不同的filters:
    u j l + 1 = ρ ( ∑ i = 1 f l Q Θ i , j l Q T u i l ) j = 1 , … , f l + 1 (7) \mathbf{u}_{j}^{l+1}=\rho\left(\sum_{i=1}^{f_{l}} \mathbf{Q} \Theta_{i, j}^{l} \mathbf{Q}^{T} \mathbf{u}_{i}^{l}\right) j=1, \ldots, f_{l+1}\tag{7} ujl+1=ρ(i=1flQΘi,jlQTuil)j=1,,fl+1(7)
  • 一般而言,谱域中的filters并不会局限于空间领域,这就意味着在图卷积网络中,每个点有可能被其他所有店影响,而不是仅仅被一小片区域中的点影响。
  • 为了解决这个问题,smoothing filters被引入:
    diag ⁡ ( Θ i , j l ) = K α l , i , j (8) \operatorname{diag}\left(\Theta_{i, j}^{l}\right)=\mathcal{K} \alpha_{l, i, j}\tag{8} diag(Θi,jl)=Kαl,i,j(8)
    其中, K \mathcal{K} K是固定插值核, α l , i , j \alpha_{l, i, j} αl,i,j是可训练插值系数。
  • 然而,有两个根本性问题还未解决:
    1. 在每步计算的时候,拉普拉斯矩阵的全特征向量都是必须的,每一步前/反向传播所需要的时间复杂度至少是 O ( N 2 ) O\left(N^{2}\right) O(N2),对大规模图网络中,运算量极大
    2. 因为filter依赖图的特征基 Q \mathrm{Q} Q,对于不同结构和尺寸的图来说,分享参数几乎是不可能的事情。

4.1.2.运算效率

  • 为了解决效率问题,ChebNet被踢出,并且使用了多项式滤波器:
    Θ ( Λ ) = ∑ k = 0 K θ k Λ k (9) \Theta(\Lambda)=\sum_{k=0}^{K} \theta_{k} \Lambda^{k}\tag{9} Θ(Λ)=k=0KθkΛk(9)
    其中, θ 0 , … , θ K \theta_{0}, \ldots, \theta_{K} θ0,,θK是科学系参数, K K K是多项式阶。ChebNet用切比雪夫展开代替了特征分解:
    Θ ( Λ ) = ∑ k = 0 K θ k T k ( Λ ~ ) (10) \boldsymbol{\Theta}(\boldsymbol{\Lambda})=\sum_{k=0}^{K} \theta_{k} \mathcal{T}_{k}(\tilde{\boldsymbol{\Lambda}})\tag{10} Θ(Λ)=k=0KθkTk(Λ~)(10)
    其中, Λ ~ = 2 Λ / λ max ⁡ − I \tilde{\mathbf{\Lambda}}=2 \boldsymbol{\Lambda} / \lambda_{\max }-\mathbf{I} Λ~=2Λ/λmaxI为经过缩放的特征值, λ max ⁡ \lambda_{\max } λmax是最大特征值, I ∈ R N × N \mathbf{I} \in \mathbb{R}^{N \times N} IRN×N为单位阵, T k ( x ) \mathcal{T}_{k}(x) Tk(x)为k阶切比雪夫多项式,其正交基的rescaling是必要的。
  • 利用拉普拉斯矩阵的多项式作为其特征值的多项式,则有 L k = Q Λ k Q T \mathbf{L}^{k}=\mathbf{Q} \mathbf{\Lambda}^{k} \mathbf{Q}^{T} Lk=QΛkQT,式6的filter操作可写为如下形式:
    u ′ = Q Θ ( Λ ) Q T u = ∑ k = 0 K θ k Q T k ( Λ ~ ) Q T u = ∑ k = 0 K θ k T k ( L ~ ) u = ∑ k = 0 K θ k u ‾ k (11) \begin{aligned} \mathbf{u}^{\prime}=\mathbf{Q} \Theta(\mathbf{\Lambda}) \mathbf{Q}^{T} \mathbf{u} &=\sum_{k=0}^{K} \theta_{k} \mathbf{Q} \mathcal{T}_{k}(\tilde{\mathbf{\Lambda}}) \mathbf{Q}^{T} \mathbf{u} \\ &=\sum_{k=0}^{K} \theta_{k} \mathcal{T}_{k}(\tilde{\mathbf{L}}) \mathbf{u}=\sum_{k=0}^{K} \theta_{k} \overline{\mathbf{u}}_{k} \end{aligned}\tag{11} u=QΘ(Λ)QTu=k=0KθkQTk(Λ~)QTu=k=0KθkTk(L~)u=k=0Kθkuk(11)
  • 用递归关系可得:
    u ‾ k = 2 L ~ u ‾ k − 1 − u ‾ k − 2 (12) \overline{\mathbf{u}}_{k}=2 \tilde{\mathbf{L}} \overline{\mathbf{u}}_{k-1}-\overline{\mathbf{u}}_{k-2}\tag{12} uk=2L~uk1uk2(12)
    由于其中含有稀疏矩阵,运算的时间复杂度变为 O ( K M ) O(K M) O(KM),M为边的数量,K是多项式阶数。而且易知这个多项式filter是严格的K-localized,即在一次卷积之后, v i v_{i} vi的表达只受K步近邻 N K ( i ) \mathcal{N}_{K}(i) NK(i)的影响。
  • 通过设置仅用先序近邻来进一步简化filtering可得:
    h i l + 1 = ρ ( ∑ j ∈ N ~ ( i ) 1 D ~ ( i , i ) D ~ ( j , j ) h j l Θ l ) (13) \mathbf{h}_{i}^{l+1}=\rho\left(\sum_{j \in \tilde{\mathcal{N}}(i)} \frac{1}{\sqrt{\tilde{\mathbf{D}}(i, i) \tilde{\mathbf{D}}(j, j)}} \mathbf{h}_{j}^{l} \Theta^{l}\right)\tag{13} hil+1=ρjN~(i)D~(i,i)D~(j,j) 1hjlΘl(13)
    也可写成如下形式:
    H l + 1 = ρ ( D ~ − 1 2 A ~ D ~ − 1 2 H l Θ l ) (14) \mathbf{H}^{l+1}=\rho\left(\tilde{\mathbf{D}}^{-\frac{1}{2}} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-\frac{1}{2}} \mathbf{H}^{l} \Theta^{l}\right)\tag{14} Hl+1=ρ(D~21A~D~21HlΘl)(14)
  • 当然,除了切比雪夫多项式,还有凯利多项式定义的图卷积:
    Θ ( Λ ) = θ 0 + 2 Re ⁡ { ∑ k = 1 K θ k ( θ h Λ − i I ) k ( θ h Λ + i I ) k } (15) \boldsymbol{\Theta}(\boldsymbol{\Lambda})=\theta_{0}+2 \operatorname{Re}\left\{\sum_{k=1}^{K} \theta_{k}\left(\theta_{h} \boldsymbol{\Lambda}-i \mathbf{I}\right)^{k}\left(\theta_{h} \boldsymbol{\Lambda}+i \mathbf{I}\right)^{k}\right\}\tag{15} Θ(Λ)=θ0+2Re{k=1Kθk(θhΛiI)k(θhΛ+iI)k}(15)
  • 以及将filters里傅利叶变换,换成小波变换的:
    u 1 ∗ G u 2 = ψ ( ( ψ − 1 u 1 ) ⊙ ( ψ − 1 u 2 ) ) (16) \mathbf{u}_{1} *_{G} \mathbf{u}_{2}=\psi\left(\left(\psi^{-1} \mathbf{u}_{1}\right) \odot\left(\psi^{-1} \mathbf{u}_{2}\right)\right)\tag{16} u1Gu2=ψ((ψ1u1)(ψ1u2))(16)

4.1.3.多图

  • 很多研究都在致力于找到Generalizing的方法,适用于任意尺度的图网络。
  • Neural FPs提出一种空间方法用于先序近邻:
    h i l + 1 = σ ( ∑ j ∈ N ^ ( i ) h j l Θ l ) (17) \mathbf{h}_{i}^{l+1}=\sigma\left(\sum_{j \in \hat{\mathcal{N}}(i)} \mathbf{h}_{j}^{l} \Theta^{l}\right)\tag{17} hil+1=σjN^(i)hjlΘl(17)
  • DCNN的卷积则被定义成如下:
    H l + 1 = ρ ( P K H l Θ l ) (18) \mathbf{H}^{l+1}=\rho\left(\mathbf{P}^{K} \mathbf{H}^{l} \mathbf{\Theta}^{l}\right)\tag{18} Hl+1=ρ(PKHlΘl)(18)
  • DGCN则用到了两种卷积,一个是公式14,另一个是将近邻矩阵换为正点相互信息矩阵PPMI,转换形式如下:
    Z l + 1 = ρ ( D P − 1 2 X P D P − 1 2 Z l Θ l ) (19) \mathbf{Z}^{l+1}=\rho\left(\mathbf{D}_{P}^{-\frac{1}{2}} \mathbf{X}_{P} \mathbf{D}_{P}^{-\frac{1}{2}} \mathbf{Z}^{l} \Theta^{l}\right)\tag{19} Zl+1=ρ(DP21XPDP21ZlΘl)(19)
    其中 X P \mathbf{X}_{P} XP,也是PPMI的计算为:
    X P ( i , j ) = max ⁡ ( log ⁡ ( P ( i , j ) ∑ i , j P ( i , j ) ∑ i P ( i , j ) ∑ j P ( i , j ) ) , 0 ) (20) \mathbf{X}_{P}(i, j)=\max \left(\log \left(\frac{\mathbf{P}(i, j) \sum_{i, j} \mathbf{P}(i, j)}{\sum_{i} \mathbf{P}(i, j) \sum_{j} \mathbf{P}(i, j)}\right), 0\right)\tag{20} XP(i,j)=max(log(iP(i,j)jP(i,j)P(i,j)i,jP(i,j)),0)(20)

4.1.4.框架

  • 基于以上两种工作,MPNNs得以被作为一个统一的框架提出,它在空间领域进行卷积,其传递信息的方式如下:
    m i l + 1 = ∑ j ∈ N ( i ) F l ( h i l , h j l , F i , j E ) h i l + 1 = G l ( h i l , m i l + 1 ) (21) \begin{array}{r} \mathbf{m}_{i}^{l+1}=\sum_{j \in \mathcal{N}(i)} \mathcal{F}^{l}\left(\mathbf{h}_{i}^{l}, \mathbf{h}_{j}^{l}, \mathbf{F}_{i, j}^{E}\right) \\ \mathbf{h}_{i}^{l+1}=\mathcal{G}^{l}\left(\mathbf{h}_{i}^{l}, \mathbf{m}_{i}^{l+1}\right) \end{array}\tag{21} mil+1=jN(i)Fl(hil,hjl,Fi,jE)hil+1=Gl(hil,mil+1)(21)
  • GraphSAGE则使用了多聚合函数:
    m i l + 1 =  AGGREGATE  l ( { h j l , ∀ j ∈ N ( i ) } ) h i l + 1 = ρ ( Θ l [ h i l , m i l + 1 ] ) (22) \begin{array}{r} \mathbf{m}_{i}^{l+1}=\text { AGGREGATE }^{l}\left(\left\{\mathbf{h}_{j}^{l}, \forall j \in \mathcal{N}(i)\right\})\right. \\ \mathbf{h}_{i}^{l+1}=\rho\left(\Theta^{l}\left[\mathbf{h}_{i}^{l}, \mathbf{m}_{i}^{l+1}\right]\right) \end{array}\tag{22} mil+1= AGGREGATE l({hjl,jN(i)})hil+1=ρ(Θl[hil,mil+1])(22)
    其中:
     AGGREGATE  l = max ⁡ { ρ ( Θ pool  h j l + b pool  ) , ∀ j ∈ N ( i ) } (23) \text { AGGREGATE }^{l}=\max \left\{\rho\left(\boldsymbol{\Theta}_{\text {pool }} \mathbf{h}_{j}^{l}+\mathbf{b}_{\text {pool }}\right), \forall j \in \mathcal{N}(i)\right\}\tag{23}  AGGREGATE l=max{ρ(Θpool hjl+bpool ),jN(i)}(23)
  • MoNet的Template Matching:
    h i k l + 1 = ∑ j ∈ N ( i ) F k l ( u ( i , j ) ) h j l , k = 1 , … , f l + 1 h_{i k}^{l+1}=\sum_{j \in \mathcal{N}(i)} \mathcal{F}_{k}^{l}(\mathbf{u}(i, j)) \mathbf{h}_{j}^{l}, k=1, \ldots, f_{l+1} hikl+1=jN(i)Fkl(u(i,j))hjl,k=1,,fl+1
  • MoNet的Gaussian kernel:
    F k l ( u ) = exp ⁡ ( − 1 2 ( u − μ k l ) T ( Σ k l ) − 1 ( u − μ k l ) ) (25) \mathcal{F}_{k}^{l}(\mathbf{u})=\exp \left(-\frac{1}{2}\left(\mathbf{u}-\boldsymbol{\mu}_{k}^{l}\right)^{T}\left(\boldsymbol{\Sigma}_{k}^{l}\right)^{-1}\left(\mathbf{u}-\boldsymbol{\mu}_{k}^{l}\right)\right)\tag{25} Fkl(u)=exp(21(uμkl)T(Σkl)1(uμkl))(25)
    其中:
    u ( i , j ) = ( 1 D ( i , i ) , 1 D ( j , j ) ) (26) \mathbf{u}(i, j)=\left(\frac{1}{\sqrt{\mathbf{D}(i, i)}}, \frac{1}{\sqrt{\mathbf{D}(j, j)}}\right)\tag{26} u(i,j)=(D(i,i) 1,D(j,j) 1)(26)
  • GN提出了一种更广泛的框架:
    m i l = G E → V ( { e i j l , ∀ j ∈ N ( i ) } ) , m V l = G V → G ( { h i l , ∀ v i ∈ V } ) m E l = G E → G ( { e i j l , ∀ ( v i , v j ) ∈ E } ) , h i l + 1 = F V ( m i l , h i l , z l ) e i j l + 1 = F E ( e i j l , h i l , h j l , z l ) , z l + 1 = F G ( m E l , m V l , z l ) (27) \begin{gathered} \mathbf{m}_{i}^{l}=\mathcal{G}^{E \rightarrow V}\left(\left\{\mathbf{e}_{i j}^{l}, \forall j \in \mathcal{N}(i)\right\}\right), \mathbf{m}_{V}^{l}=\mathcal{G}^{V \rightarrow G}\left(\left\{\mathbf{h}_{i}^{l}, \forall v_{i} \in V\right\}\right) \\ \mathbf{m}_{E}^{l}=\mathcal{G}^{E \rightarrow G}\left(\left\{\mathbf{e}_{i j}^{l}, \forall\left(v_{i}, v_{j}\right) \in E\right\}\right), \mathbf{h}_{i}^{l+1}=\mathcal{F}^{V}\left(\mathbf{m}_{i}^{l}, \mathbf{h}_{i}^{l}, \mathbf{z}^{l}\right) \\ \mathbf{e}_{i j}^{l+1}=\mathcal{F}^{E}\left(\mathbf{e}_{i j}^{l}, \mathbf{h}_{i}^{l}, \mathbf{h}_{j}^{l}, \mathbf{z}^{l}\right), \mathbf{z}^{l+1}=\mathcal{F}^{G}\left(\mathbf{m}_{E}^{l}, \mathbf{m}_{V}^{l}, \mathbf{z}^{l}\right) \end{gathered}\tag{27} mil=GEV({eijl,jN(i)}),mVl=GVG({hil,viV})mEl=GEG({eijl,(vi,vj)E}),hil+1=FV(mil,hil,zl)eijl+1=FE(eijl,hil,hjl,zl),zl+1=FG(mEl,mVl,zl)(27)

参考文献

[1] Zhang Z, Cui P, Zhu W. Deep learning on graphs: A survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2020.

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值