标签传播和消息传递（半监督节点分类）

司南锤

于 2024-09-08 19:15:50 发布

阅读量834

点赞数 15

分类专栏：深度学习文章标签：分类人工智能数据挖掘

本文链接：https://blog.csdn.net/qq_52964132/article/details/142031390

版权

深度学习专栏收录该内容

67 篇文章

订阅专栏

标签传播和消息传递是图神经网络（Graph Neural Networks, GNNs）中常用的两种方法，用于半监督节点分类任务。这两种方法都利用了图结构中的信息来推断未标记节点的标签。下面将详细讲解这两种方法。

1. 标签传播（Label Propagation）

标签传播是一种基于图的半监督学习方法，通过在图上传播已知节点的标签来预测未标记节点的标签。其核心思想是：相邻节点在图结构上具有相似的特征，因此的标签也应该是相似的。

1.1 基本原理

假设有一个图 $G = (V, E)$ ，其中 $V$ 是节点集合， $E$ 是边集合。每个节点 $v_i \in V$ 可能有一个标签 $y_i$ ，其中一部分节点是已标记的（ $y_i$ 已知），另一部分节点是未标记的（ $y_i$ 未知）。

标签传播的基本步骤如下：

初始化：将已知节点的标签设置为的实际标签，未标记节点的标签设置为某个初始值（例如，均匀分布）。
传播：通过迭代更新节点的标签。在每次迭代中，每个节点的标签根据其邻居节点的标签进行更新。具体来说，节点 $v_i$ 的新标签 $y_i^{(t+1)}$ 可以表示为：
$y_i^{(t+1)} = \sum_{j \in \mathcal{N}(i)} w_{ij} y_j^{(t)}$
其中 $\mathcal{N}(i)$ 是节点 $v_i$ 的邻居节点集合， $w_{ij}$ 是节点 $v_i$ 和 $v_j$ 之间的权重（通常是边的权重或相似度）。
归一化：为了确保标签的稳定性，通常会对更新后的标签进行归一化处理。
迭代：重复上述传播和归一化步骤，直到标签收敛或达到预定的迭代次数。

1.2 收敛性

标签传播算法通常会收敛到一个稳定状态，即节点的标签不再发生显著变化。收敛性可以通过以下方式保证：

归一化：在每次迭代中对标签进行归一化，确保标签的分布保持稳定。
图的连通性：如果图是连通的，标签传播算法通常会收敛到一个全局一致的标签分布。

1.3 优缺点

优点：
- 简单易实现。
- 能够利用图结构中的信息，适用于图上的半监督学习任务。
缺点：
- 对初始标签敏感，可能会陷入局部最优。
- 对于大规模图，计算复杂度较高。
- 无法处理图中的噪声和异常值。

2. 消息传递（Message Passing）

消息传递是图神经网络（GNNs）中的一种核心机制，用于在图结构上传播信息。消息传递的基本思想是通过节点之间的消息交换来更新节点的表示（embedding），从而实现节点分类等任务。

2.1 基本原理

消息传递机制可以分为以下几个步骤：

消息生成：每个节点根据其邻居节点的信息生成一条消息。具体来说，节点 $v_i$ 生成的消息 $m_{ij}$ 可以表示为：
$m_{ij} = \phi(h_i, h_j, e_{ij})$
其中 $h_i$ 和 $h_j$ 分别是节点 $v_i$ 和 $v_j$ 的当前表示（embedding）， $e_{ij}$ 是边 $v_i, v_j)$ 的特征（如果有的话）， $\phi$ 是一个消息函数。
消息聚合：节点 $v_i$ 将其邻居节点生成的消息聚合起来，得到一个新的表示 $h_i'$ 。聚合函数 $\rho$ 可以是简单的求和、平均，也可以是更复杂的函数：
$h_i' = \rho(\{ m_{ij} \mid j \in \mathcal{N}(i) \})$
更新：节点 $v_i$ 根据聚合后的消息更新其表示 $h_i$ 。更新函数 $\psi$ 通常是一个非线性变换：
$h_i = \psi(h_i', h_i)$
迭代：重复上述消息生成、聚合和更新步骤，直到节点的表示收敛或达到预定的迭代次数。

2.2 图神经网络中的消息传递

在图神经网络中，消息传递机制通常被封装在图卷积层（Graph Convolutional Layer）中。图卷积层可以看作是消息传递机制的一种具体实现，其中消息函数、聚合函数和更新函数都被定义为神经网络的参数。

例如，在经典的图卷积网络（GCN）中，消息传递可以表示为：
$h_i^{(l+1)} = \sigma \left( \sum_{j \in \mathcal{N}(i) \cup \{i\}} \frac{1}{\sqrt{d_i d_j}} h_j^{(l)} W^{(l)} \right)$
其中 $h_i^{(l)}$ 是节点 $v_i$ 在第 $l$ 层的表示， $W^{(l)}$ 是可学习的权重矩阵， $\sigma$ 是非线性激活函数， $d_i$ 和 $d_j$ 分别是节点 $v_i$ 和 $v_j$ 的度数。

2.3 优缺点

优点：
- 能够处理复杂的图结构，适用于各种图上的任务。
- 通过学习消息函数、聚合函数和更新函数，能够捕捉图中的复杂模式。
- 可以通过堆叠多层图卷积层来捕捉图中的长距离依赖关系。
缺点：
- 计算复杂度较高，尤其是对于大规模图。
- 需要大量的标记数据进行训练，否则可能会过拟合。
- 对于异质图（节点和边类型多样），消息传递机制的设计较为复杂。