GCN学习笔记：第一部分，手把手用Numpy实现GCN_设h(l)表示第l层的节点表示矩阵,a为邻接矩阵,x为输入特征矩阵,则gcn的更新规-CSDN博客

本文链接：https://blog.csdn.net/weixin_42052081/article/details/89108966

本文提供了一份图卷积网络（GCN）的Numpy实现，介绍了GCN的基础概念、传播规则，并通过一个简单的图示例解释信息如何在隐藏层中传播。在实际场景中，GCN在Zachary空手道俱乐部数据集上的应用展示了其对社区结构的捕获能力。即便未经训练，随机初始化的GCN也能生成区分社区的节点特征表征。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一部分：图卷积网络到底怎么做，这是一份极简的Numpy实现

由于图结构非常复杂且信息量很大，因此对于图的机器学习是一项艰巨的任务。本文介绍了如何使用图卷积网络（GCN）对图进行深度学习，GCN 是一种可直接作用于图并利用其结构信息的强大神经网络。

本文将介绍 GCN，并使用代码示例说明信息是如何通过 GCN 的隐藏层传播的。读者将看到 GCN 如何聚合来自前一层的信息，以及这种机制如何生成图中节点的有用特征表征

何为图卷积网络？

GCN 是一类非常强大的用于图数据的神经网络架构。事实上，它非常强大，即使是随机初始化的两层 GCN 也可以生成图网络中节点的有用特征表征。下图展示了这种两层 GCN 生成的每个节点的二维表征。请注意，即使没有经过任何训练，这些二维表征也能够保存图中节点的相对邻近性。

更形式化地说，图卷积网络（GCN）是一个对图数据进行操作的神经网络。给定图 G = (V, E)，GCN 的输入为：

1，一个输入维度为 N × F⁰ 的特征矩阵 X，其中 N 是图网络中的节点数而 F⁰ 是每个节点的输入特征数。
2，一个图结构的维度为 N × N 的矩阵表征，例如图 G 的邻接矩阵 A。[1]

因此，GCN 中的隐藏层可以写作 Hⁱ = f(Hⁱ⁻¹, A))。其中，H⁰ = X，f 是一种传播规则 [1]。每一个隐藏层 Hⁱ 都对应一个维度为 N × Fⁱ 的特征矩阵，该矩阵中的每一行都是某个节点的特征表征。在每一层中，GCN 会使用传播规则 f 将这些信息聚合起来，从而形成下一层的特征。这样一来，在每个连续的层中特征就会变得越来越抽象。在该框架下，GCN 的各种变体只不过是在传播规则 f 的选择上有所不同 [1]。

传播规则的简单示例

下面，本文将给出一个最简单的传播规则示例 [1]：

f(Hⁱ, A) = σ(AHⁱWⁱ)

其中，Wⁱ 是第 i 层的权重矩阵，σ 是非线性激活函数（如 ReLU 函数）。权重矩阵的维度为 Fⁱ × Fⁱ⁺¹，即权重矩阵第二个维度的大小决定了下一层的特征数。如果你对卷积神经网络很熟悉，那么你会发现由于这些权重在图中的节点间共享，该操作与卷积核滤波操作类似。

简化

接下来我们在最简单的层次上研究传播规则。令：

1，i = 1，（约束条件 f 是作用于输入特征矩阵的函数）
2，σ 为恒等函数
3，选择权重（约束条件： AH⁰W⁰ =AXW⁰ = AX）

换言之，f(X, A) = AX。该传播规则可能过于简单，本文后面会补充缺失的部分。此外，AX 等价于多层感知机的输入层。

简单的图示例

我们将使用下面的图作为简单的示例：

一个简单的有向图

使用 numpy 编写的上述有向图的邻接矩阵表征如下：

A = np.matrix([
    [0, 1, 0, 0],
    [0, 0, 1, 1],
    [0, 1, 0, 0],
    [1, 0, 1, 0]],
    dtype=float
)

接下来，需要抽取出特征！我们基于每个节点的索引为其生成两个整数特征，这简化了本文后面手动验证矩阵运算的过程。

In [3]: X = np.matrix([
            [i, -i]
            for i in range(A.shape[0])
        ], dtype=float)
        X
Out[3]: matrix([
           [ 0.,  0.],
           [ 1., -1.],
           [ 2., -2.],
           [ 3., -3.]
        ])

应用传播规则

现在已经建立了一个图，其邻接矩阵为 A，输入特征的集合为 X。下面让我们来看看，当我们对其应用传播规则后会发生什么：

我们现在已经建立了一个图，其邻接矩阵为 A，输入特征的集合为 X。下面让我们来看看，当我们对其应用传播规则后会发生什么：

In [6]: A * X
Out[6]: matrix([
            [ 1., -1.],
            [ 5., -5.],
            [ 1., -1.],
            [ 2., -2.]]

每个节点的表征（每一行）现在是其相邻节点特征的和！换句话说，图卷积层将每个节点表示为其相邻节点的聚合。大家可以自己动手验证这个计算过程。请注意，在这种情况下，如果存在从 v 到 n 的边，则节点 n 是节点 v 的邻居。

问题

你可能已经发现了其中的问题：

1，节点的聚合表征不包含它自己的特征！该表征是相邻节点的特征聚合，因此只有具有自环（self-loop）的节点才会在该聚合中包含自己的特征 [1]。
2，度大的节点在其特征表征中将具有较大的值，度小的节点将具有较小的值。这可能会导致梯度消失或梯度爆炸 [1, 2]，也会影响随机梯度下降算法（随机梯度下降算法通常被用于训练这类网络，且对每个输入特征的规模（或值的范围）都很敏感）。

接下来，本文将分别对这些问题展开讨论。

增加自环

为了解决第一个问题，我们可以直接为每个节点添加一个自环 [1,