读《Learning Backtrackless Aligned-Spatial Graph Convolutional Networks for Graph Classification》

摘要

将任意大小的graph转化为固定大小的无回溯对齐grid(网格)结构(又变欧式?)
减少了现有空域GCN存在的信息丢失表达不准确的问题,串联了传统CNN和空域GCN的理论。
可在卷积过程中自适应区分顶点间重要性,且减少了与WL算法相关的空域GCN的摇摆问题

1.引言

A.文献综述

分析图结构的方法可分为图嵌入和图核
前者将graph转换为向量

[5], [6], [7], [8].

这样把图降维会导致结构信息损失
于是图核方法在高维希尔伯特空间建模,克服这个问题

[9],[10],[2],[11],[12],[13]

然而这俩方法都忽视了多图信息。图嵌入捕捉单张图的结构特征,而图核是针对成对图的结构特征
由于计算结构特征的过程与分类器分离,所以这俩方法都不能提供一个端到端的同时集成图特征学习和图分类过程的学习体系
——————————
GCN相比之下也是一种很有效的为图分类提取统计特征的方法

[20].

GCN又可以分为频域和空域。
频域GCN考虑谱图理论,通过让图乘以拉式矩阵的特征值做成的卷积滤波,进一波可引入切比雪夫多项式降低计算成本
但是大多数谱方法不能在顶点数和傅立叶基不同的图上执行。也就是频域GCN更适用于相同大小的图结构,通常用于顶点分类任务。
而空域卷积没有图结构尺寸的限制,直接考虑邻居节点

Duvenaud et al. [25]在1阶邻居上模拟圆形指纹
Atwood and Towsley [24]考虑邻居的不同层

这时还需要进一步将从图卷积层学习到的多尺度特征转化为固定大小的表示,再送入分类器。一种方法是通过求和池化直接将从图卷积中学习到的局部层次顶点特征总结为全局层次的图特征。由于难以从全局特征中学习到丰富的局部顶点拓扑信息,这些基于空间的与求和池化相关的GCN方法在图分类上的性能相对较差。

Zhang et al. [27]提出DGCNN保留更多节点信息,并提出排序池化将GCN得到的无序节点的特征转换为固定大小的局部节点网格结构,通过按顺序保留指定数量的节点来实现。(这样岂不是更丢失结构信息?)
Nieper et al. [28]提出PSGCNN通过局部邻居捕获更多节点信息,提取并标准化一个固定大小的以每个顶点为基准的局部邻域,其中每个邻域的顶点基于相同的图标记方法和图标准化工具进行重新排序。这些标准化的邻域可以作为其根顶点的接受域进行卷积运算,这样形成了每个图的局部的固定大小的顶点网格结构。这样就可以像对图片(image)一样做卷积(所以说还是转欧式呗?)

这些方法还是基于每张图对节点排序,还无法准确反映相应的拓扑信息,而且因为那些低级关联的顶点可能会被丢弃导致严重的信息损失。
——————————
现有的大部分空域GCN会基于WL算法

[27] [24],[25], [26]

因为它们聚合每个节点及其邻居的特征的卷积过程和WL算法类似。因而它们也如WL算法一样会有摇摆问题,也即,可能在获取第二个节点信息后转过头再到起始节点,造成冗余的节点特征信息

B.贡献

[29]之前的工作 ASGCN

将对齐空域GCN推广到无回溯的GCN,解决摇摆问题
关键之一是图之间的传递对齐节点,即给定来自三个不同样本图中的三个节点v,w,x,如果v和x对齐,w和x对齐,则模型应保证v和w对齐
采用传递对齐过程,将任意大小的图转换为顶点顺序一致的固定大小对齐网格结构,保证同一空间位置上的顶点也在拓扑结构上传递对齐。

BASGCN保留了ASGCN的优势,即减少了现有GCN信息丢失和信息表示不准的问题
无回溯是指,这种网格结构是对应一个有向线图,而不是ASGCN那样的无向图,这样聚合邻居信息时不会再回到起点,解决了摇摆问题。
在这里插入图片描述

  1. 任意大小的输入图Gp首先与原型图GR对齐。然后将Gp映射到一个固定大小的无回溯对齐顶点网格结构中,其中顶点顺序遵循GR,对应的对齐顶点邻接矩阵对应一个有向线图
    Gp的网格结构通过一对平行堆叠的空间图卷积层来提取多尺度顶点特征(即Zin;0和Zout;0相同),其中顶点信息在与有向邻接矩阵相关联的指定顶点之间传播。
  2. 对于每个根顶点,上卷积层专注于聚合顶点本身以及它的内邻居(即指向根节点的节点)的特征,而下卷积层专注于聚合顶点本身以及其外邻居(即由根顶点指向的顶点)的特征。上下图卷积层共享可训练参数。
    由于图卷积层保持了输入网格结构的原始顶点顺序,通过图卷积层拼接的顶点特征形成了Gp新的顶点网格结构。
  3. 然后将这个顶点网格结构传递到传统CNN层进行分类。

网格结构不仅构建起图之间可靠节点的对于信息,而且最小化了源自起始图的结构信息损失(真的假的?)
(这一部分车轱辘话重复来重复去,那可真是玩明白了)

2.空域GCN相关

[27]以此为例

记X为n(节点数)个c维列向量节点特征组成的特征矩阵,A为有权邻接矩阵(突然想到一些小白疑问,X是怎么来的,节点特征是已知的咯,那GCN就没有特征提取一说了?还是说GCN提取的特征是结构特征,而节点特征是提前数据集里已有的?推荐系统还好说,用户项目的信息数据库里都有,这种推广问题里节点特征怎么经过特征工程得到呢?这样还算端到端吗?)
从而空域卷积可计算
(1)在这里插入图片描述
(这样其实可以看来,空域卷积的公式和一阶切比雪夫谱图卷积的公式仅是标准化方式的区别,空域卷积是左乘D~ 的逆标准化,一阶切比雪夫是对称标准化,即左右乘 D ~ − 1 2 \tilde{D}^{-\frac{1}{2}} D~21
其中A~ 为自连接的A,D~ 为A~ 的度矩阵
这样A~XW就聚合了每个节点及其邻居的特征。

减少顶点间的区别

由上式可以看出,这里的空域图卷积不能区分特定节点间的重要性,因为权值共享

同样存在此问题的空域图卷积模型
Neural Graph Fingerprint Network (NGFN) [25]
Diffusion Convolution Neural Network (DCNN) [24]

摇摆问题

[27] 理论上提出 DGCNN与WL的关系

WL的核心思想:连接节点及其邻居的标签,按字母顺序对拼好的标签排序后再给每个节点分配新的标签,终止条件是迭代轮次H。第h轮时每个节点标签对应一个
以该节点为根,高为h的子树。如果两节点的拼接标签相同,则以该两节点为根的子树同构。
进一步以逐行方式改写(1)式
在这里插入图片描述
其中Y=XW,Γ(i)对应第i个节点的邻居集,Y[i,:]看作是第i个顶点的连续值向量顶点标签。把i节点的连续值标签Y[i,:]和其每个邻居标签Y[j,:]拼接起来,作为i的新标签

3.为任意图构造对齐的无回溯网格结构

为了将图卷积得到的多尺度特征统一到固定大小,采用求和池化或者排序池化,但这些池操作又会损失部分信息
这里提出一种传递匹配方法来将任意大小的图映射到固定大小无回溯的网格结构
这种网格结构不仅集成了精确的对应结构信息,而且最小化了结构信息的损失(这不是一个意思吗)

A.识别传递顶点对齐信息

首先指定了一组原型表示,它们封装了图集合G中所有向量顶点表示的主要特征。假设在G中所有图中能有n个向量,它们对应有K维向量表示集RK= {RK1, RK2, . . . , RKn }
利用k-means在Rk定位M个质心,得到最小化目标函数
在这里插入图片描述
其中Ω = (c1, c2, . . . , cM)表示M个簇,µKj是属于第j个簇cj的节点的表示的均值
对于G中的一个样本图Gp,其中节点vi对应的K维向量表示RKp;i,通过定位一族K维原型表示PRK = {µK1, . . . , µKj, . . . , µKM}初始化G中所有的图
为了建立不同图之间的转移对应信息,在模式空间中进行点匹配的对齐过程

参照Bai et al. [12]

通过欧氏距离计算K级关联矩阵affinity matrix,将每个图Gp的向量节点表示对齐到PRK的原型表示族上
在这里插入图片描述
其中AKp是|Vp| × M的矩阵,其每个元素AKp(i, j)对应RKp;i和µKj ∈ PRK的距离
如果其中某个元素是其所属行 i 中最小值,v ∈ Vp的向量表示RKp;i可认为与第j个原型表示µKj ∈ PRK对齐,也即向量vi对齐第j个原型表示
对于每个图,可能有多个顶点与相同的原型表示对齐。
通过K级对应矩阵CKp(|Vp|×M的以0,1为元素的矩阵)记录对应信息
(5)在这里插入图片描述
如果G中有Gp和Gq的向量vp和vq对应同一个原型表示µKj ∈ PRK,那么vp和vq也是对齐的
这样,通过将它们的顶点对齐到一个共同的原型表示集,来确定G中所有图之间的传递对应信息。

对齐过程等价于将每个顶点vi∈Vp的向量表示RKp;i赋值为簇cj的均值µKj。因此,所提出的对齐过程可以看作是一个通过k-means逐步最小化所有图顶点上的内顶点簇的平方和的优化过程,可以在所有图上建立可靠的顶点对应信息。
(那这一步相当于是统一图固定大小)

B.对齐图的网格结构

记n×c的矩阵Xp,是Gp的n = |Vp|个c维节点特征向量拼接而来
Xp的行遵循与A ~ p相同的顶点顺序
如果Gp是节点属性图,则Xp可以是节点标签的独热编码矩阵。对于无属性图,可以把节点的度作为节点标签。(那度矩阵D咋办?)
上面计算出了记录Gp的K维向量节点表示和K维原型表示的对应信息的CKp,接下来可以计算Gp的K级对齐节点特征矩阵
在这里插入图片描述
其中左侧是M×c矩阵,每一行表示一个对应对齐节点的特征
接着可以计算Gp的K级对齐节点邻接矩阵
在这里插入图片描述
其中左侧M×M
以上两个矩阵都通过对应的原型索引到PRK。因为它们是分别映射每个节点vp的原始特征和邻接信息到新的对齐节点,它们封装了Gp原始的特征和结构信息
根据(5)式,每个原型会有可能多于一个节点对齐,所以 A ˉ p K \bar{A}_{p}^{K} AˉpK可能会是有权邻接矩阵

为了给每个图Gp构建固定大小的对齐网格结构,需要给节点排序以确定它们的空间次序(还是转欧式了吗?)因为每个图的节点都对齐到同一套原型表示,通过记录原型表示对每个图的节点排序。这样得到一个原型图GR,它捕捉到PRK中K维原型表示成对的相似度,其每个节点vj对应原型表示μKj,其每条边(vj , vk)对应µKj和µKk的相似度
在这里插入图片描述
按照每个原型表示的度DR,可以给K维原型表示排序,进而相应的重新整理 X ˉ p K \bar{X}_{p}^{K} XˉpK A ˉ p K \bar{A}_{p}^{K} AˉpK

为了构建合理的网格结构,采用基于深度(DB)的表示作为向量节点表示来计算CKp
通过对一族以某节点为根的k层扩张子图测量熵,来定义该节点的DB表示,其中k∈[1,K]
如此K维的DB表示封装了从每一个局部节点到全局图结构的丰富的熵信息流,正如深层的运算
在这里插入图片描述
层数K从1变到L,可以计算每个图Gp的最终对齐节点网格结构
在这里插入图片描述
在这里插入图片描述
这里邻接矩阵 A ˉ p \bar{A}_{p} Aˉp对应无向图,直接使用次矩阵到现有的空域GCN中还是会有摇摆现象,于是还得把它变成无回溯的 A ˉ p D \bar{A}_{p}^{D} AˉpD,对应到一个有向线图。首先计算第i个对齐网格节点的度 D ˉ p D \bar{D}_{p}^{D} DˉpD,然后计算经典稳态随机游走访问第i个顶点的概率为
在这里插入图片描述
通过将 A ˉ p \bar{A}_{p} Aˉp上的每个双向边替换为与经典随机游走访问概率相关的有向边
在这里插入图片描述
不过从上式可以看出自循环还是不会丢弃的(你老惦记那自循环是干啥?)

由于驻留在无回溯邻接矩阵 A ˉ p D \bar{A}_{p}^{D} AˉpD上的每条有向边的方向是从随机游动访问概率较低的顶点向随机游动访问概率较高的顶点, A ˉ p D \bar{A}_{p}^{D} AˉpD封装了丰富的随机游动访问信息

4.网络模型

不同于现有的模型共享权值,BASGCN的权值直接影响对齐网格节点特征的聚合,这样卷积算子就可以区分特定对齐网格节点的重要性

A.无回溯图卷积算子

在这里插入图片描述在这里插入图片描述
A ˉ i n = ( A ˉ D ) T \bar{A}_{in}=(\bar{A}^{D})^T Aˉin=(AˉD)T表示内邻居矩阵,也即 A ˉ i n \bar{A}_{in} Aˉin(i,j)表示从第j个到第i个网格节点的有向边,这些 j 节点可以记录为 i 的内邻居节点
A ˉ o u t = A ˉ D \bar{A}_{out}=\bar{A}^{D} Aˉout=AˉD表示外邻居矩阵,也即 A ˉ o u t \bar{A}_{out} Aˉout(i,j)表示从第i个到第j个网格节点的有向边,这些 j 节点可以记录为 i 的外邻居节点
两种度矩阵也是对应两种邻居矩阵
上式对应内空间图卷积算子,下式对应外算子,分别关注于传播每个网格节点与其内邻居或外邻居的特征信息
对第h个卷积核,内外卷积共享权值Wh(M×c),核大小M×1,通道数c
在这里插入图片描述

  1. ∑ j = 1 c ( X ˉ ⨀ W h ) [ : , j ] \sum_{j=1}^{c}(\bar{X}\bigodot W^h)_{[:,j]} j=1c(XˉWh)[:,j]
    可看做1节点特征通道的有权对齐特征节点网格结构
  2. 聚合过程类似于在标准网格结构上执行一个固定大小的标准卷积核,首先为每个网格元素及其相邻网格元素的特征分配不同的加权向量,然后将加权特征聚合(即求和)作为每个网格元素的新特征。
    这个过程可看做权值Wh直接影响卷积算子,自适应区分重要性(有吗?)
  3. 标准化,固定大小
  4. 激活,输出
    这里卷积操作仅对对齐的网格顶点提取新的特征,而不改变对齐的顶点的阶数,因此输出的Zh仍然是一个对齐的顶点网格结构,顶点阶相同为X¯

B.架构

C.讨论和相关工作

对比现有方法的优势:

  1. 虽然分类器可以直接读取固定大小的特征进行分类,但是很难通过全局级的图特征来捕获驻留在局部顶点上的局部拓扑信息。
    而BASGCN更多关注于通过空间内和空间外图卷积对图的对齐网格结构提取局部级对齐网格顶点特征。因此相比之下,BASGCN模型可以封装更丰富的局部结构信息。
  2. 现有方法为了网格化固定大小,仅保留指定数量的高阶顶点,这样抛弃的点会造成严重信息损失。
    而BASGCN封装所有点
    另外,现有方法基于局部结构对每个图的顶点进行排序,忽略了不同图之间一致的顶点对应信息。
    而BASGCN是通过传递的顶点对齐过程构建的。因此,只有本文提出的BASGCN模型能够封装任意一对图结构之间的结构对应信息,即同一空间位置上的顶点也是传递对齐的。
  3. BASGCN的图卷积运算在理论上与标准网格结构上的经典卷积运算相关联,弥补了传统CNN模型与基于空间的GCN模型之间的理论鸿沟。
  4. BASGCN有能力区分节点重要性
  5. 解决摇摆问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值