Datawhale组队学习CS224W Task02-CSDN博客

本文链接：https://blog.csdn.net/m0_56111279/article/details/129075295

文章介绍了图在网络中的广泛应用，如社交网络和知识图谱，并强调了图神经网络在自动学习节点特征上的能力。图机器学习任务涵盖了节点、边和全图的分析，包括节点分类、子图聚类和推荐系统。图的基本表示包括节点、边和邻接矩阵，讨论了无向图、有向图和异质图等不同类型的图。此外，文章还提到了节点特征工程，如节点度、中心性和聚类系数，以及全图层面的特征工程，如图核和Weisfeiler-LehmanKernel。

摘要由CSDN通过智能技术生成

复习

图在生活中广泛存在：事件网络、计算机网络、疾病网络、社交网络、交通网络、知识图谱等

图神经网络是端到端的表示学习，可以自动学习特征，无需人为的特征工程

图嵌入是一个 $d$ 维的嵌入向量表示节点的语义信息

节点、连接、子图、全图都可以有特征

图机器学习的任务包括：节点层面【判断是否有信用卡欺诈】、社团（子图）层面【用户聚类】、边层面【推荐“可能认识的人”】；图层面【判断分子是否有毒、生成新的分子结构等等】

图的基本表示

基本表示

Objects: nodes (节点)，vertices (顶点)，表示为 $N$

Interactions: links, edges，表示为 $E$，绝对值表示数量

System: network, graph，表示为 $G(N,E)$，绝对值表示数量

本体图（Ontology）

如何设计本体图，取决于将来想解决什么问题

有些时候，设计是唯一的，如用节点代表人物；另外一些时候，如家族、地点、时间，表达通常不唯一

图的种类

Undirected: 无向图【对称的，互相的】，如关系、合作

Directed: 有向图，如交通流

Heterogeneous: 异质图，节点和连接存在不同的类型，如论文的标题、作者、年份网络

Bipartite: 节点只有两类；每一类的节点只与另一类节点相连，如作者-论文图

节点连接数

无向图：平均度为 $\bar{k}=\langle k \rangle = \frac{1}{N} \sum_{i=1}^{N} k_{i} = \frac{2E}{N}$

有向图：平均度为 $\bar{k}=\frac{E}{N}$

邻接矩阵

无向图：

邻接矩阵是对称阵 $A_{ij}=A_{ji}$，$A_{ii}=0$ ，连接总数 $L=\frac{1}{2} \sum_{i=1}^{N} k_{i}=\frac{1}{2} \sum_{ij}^{N}A_{ij}$

沿行或者列求和可以得到节点的度

有向图：

邻接矩阵式非对称阵，$A_{ij} \neq A_{ji}$

连接总数: $L=\sum_{i=1}^N k_i^{i n}=\sum_{j=1}^N k_j^{\text {out }}=\sum_{i j}^N A_{i j}$

出度 $k_i^{\text {out }}=\sum_{j=1}^N A_{i j}$ ，入度 $k_j^{i n}=\sum_{i=1}^N A_{i j}$

为什么把图表示成矩阵形式，方便计算机进行处理，而且大多时候我们的图是稀疏的

连接列表、邻接列表

连接列表：记录存在连接的节点对（Edge list）

Edge list: (2, 3), (2, 4), (3, 2), (3, 4), (4, 5), (5, 1), (5, 2)

邻接列表：记录相关连接的节点，每个节点占用一行

1：

2：3，4

3: 2, 4

4: 5

5: 1，2

其他种类的图

Unweighted: 边上没有权重，邻接矩阵的数值为 0 或者 1

Weighted: 边上带有权重，邻接矩阵的数值为自然数，例如道路交通网络，可以边权表示流量大小

Self-edges (self-loops): 带有自环的无向图，主对角线元素不只有 0

Multigraph: 节点之间有多条边可以连接

图的连通性

Connected graph (无向图)：任意两个节点都有路线相连；connected components 称为连通域

Disconected graph (无向图)：邻接矩阵是 block-diagonal，而连通图在其他位置的元素也可能非 0

Strongly connected directed graph: 有向图中，任意两个节点都可以相互触达

Weakly connected directed graph: 忽略方向之后，如果任意两个节点能互相到达

Strongly connected components (SCCs): 强连通域；In-component：节点指向强连通域；Out-component：节点指出强连通域

传统图机器学习（人工特征工程）

学习步骤：

把节点、连接、全图编码成 D 维向量

将D维向量输入到机器学习模型中进行训练

给出一个新的图（节点、连接、全图）和特征，进行预测

节点层面的特征工程

流程：给出 $G=(V,E)$，学习一个 funtion: $f: V \rightarrow \mathbb{R}$

半监督节点分类任务：使用已知节点图，预测未知节点的类别

节点特征：Node degree、Node centrality（节点重要度）、Clustering coefficient（聚集系数）、Graphlets（子图模式）

Node degree

含义：节点度表示为该节点所有边数的和

特点：只看圈子人数，不看圈子质量，将所有邻接节点同等看待

Node centrality【考虑了节点重要度特征】

Eigenvector centrality

含义：一个节点 $v$ 是重要的如果他被重要的邻居节点包围

公式：$c_{v} = \frac{1}{\lambda} \sum_{u \in N (v)} c_{u}$，$v$ 节点邻居节点重要度求和

求解：需要递归进行（recursive manner），等价于求解 $\lambda c = Ac$ 【邻接矩阵的特征值和特征向量】

Betweenness centrality

含义：一个节点是重要的如果它在很多其他节点的最短路径中【交通咽喉，必经之地】

公式：$c_{v} = \sum_{s \neq v \neq t} \frac{# \text{(shortest paths between } s \text{ and } t \text{ that contains } v )}{# \text{(shortest paths between } s \text{ and } t )}$

其中，分子表示其中有多少对节点的最短距离通过节点 $v$；分母表示除了 $v$ 节点之外，两两节点对数（对于连通域，分母都相同）