图卷积对图中节点的特征和图结构建模,本文中作者首先移除图卷积中的非线性变换,发现在GCN中起关键作用的是传播层,而不是感知层。然后提出AGNN模型,在传播层引入attention机制,使中心节点特征的聚合过程中,对邻居节点的注意力产生差异。模型在benchmark测试用的文献引用数据集上的效果优于其他state-of-the-art的方法。并且,通过传播矩阵计算节点之间的关联强度,得到了一些更有趣的信息。在预测目标节点类别时,与预测类别相同的邻居节点将会在此过程中,承担了比其他邻居节点更重要的角色。
Graph Neural Network
GNN模型的向前传播是典型的传播层和感知层的交替。模型第l层的隐含状态 H ( l ) ∈ R n × d h H^{(l)} \in \mathbb{R}^{n\times d_h} H(l)∈Rn×dh,隐含状态的第i行 H i ( l ) H^{(l)}_i Hi(l),表示节点i的 d h d_h dh维特征。传播矩阵 P ∈ R n × n P\in \mathbb{R}^{n\times n} P∈Rn×n传播层定义为
H ~ ( l ) = P H ( l ) \tilde{H}^{(l)}=PH^{(l)} H~(l)=PH(l)
回顾半监督GCN,交替叠加两次,传播层和感知层
H ( 1 ) = R e L U ( ( P X ) W ( 0 ) ) , Z = f ( X , A ) = s o f t m a x ( ( P H ( 1 ) ) W ( 1 ) ) H^{(1)} = \mathrm{ReLU}((PX)W^{(0)}), \\ \\ Z = f(X, A) = \mathrm{softmax}((PH^{(1)})W^{(1)}) H(1)=ReLU((PX)W(0)),Z=f(X,A)=softmax((PH(1))W(1))
其中, P = D ~ − 1 / 2 A ~ D ~ − 1 / 2 P=\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2} P=D~−1/2A~D~−1/2, A ~ = A + I \tilde{A}=A+\mathbb{I} A~=A+I。参数 W ( 0 ) 和 W ( 1 ) W^{(0)}和W^{(1)} W(0)和W(1)