GAP: Generalizable Approximate Graph Partitioning Framework模型

最新推荐文章于 2024-09-10 11:06:55 发布

肥肥大大只丶

最新推荐文章于 2024-09-10 11:06:55 发布

阅读量1.3k

点赞数

文章标签：算法人工智能

本文链接：https://blog.csdn.net/faker7/article/details/128566011

版权

前言

最近在调研知识图谱分割算法，看到了这篇论文GAP: Generalizable Approximate Graph Partitioning Framework，直接翻译就是可推广的近似图划分框架，按照我的理解，意思大概就是说，模型是以图节点的近似程度为基础来划分子图，并且模型具有一定的泛化能力。

GAP模型

GAP模型主要包含图嵌入模块（Graph Embedding Module）和图分割模块（Graph Partitioning Module）：

图嵌入模块：使用GCN（Graph embedder）提取特征和GraphSAGE（Node embeddings）生成高维图节点表示；
图分割模块：使用全连接层和Softmax；

图嵌入模块

图卷积神经网络GCN

论文：SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS
GAP模型使用GCN来提取特征，假设图 $G$ 有 $N$ 个顶点，每个顶点都有自己的特征，假设顶点的特征组成 $N \times D$ 维的矩阵 $X$ ，顶点之间的关系组成 $N \times N$ 维的邻接矩阵 $A$ ，则GCN神经网络层与层之间正向传播可以表示为：
$H^{l+1}=\sigma(\hat{A}H^lW^l)$
其中， $\hat{A}=\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}$ ， $\tilde{A}=A+I_n$ ， $I_n$ 是单位矩阵， $\tilde{D}$ 是 $\tilde{A}$ 的度矩阵， $\tilde{D}_{ii}=\sum_j\tilde{A}_{ij}$ ， $\hat{A}$ 可以直接由邻接矩阵 $A$ 计算得到； $W^l$ 是第 $l$ 层的权重矩阵， $\sigma$ 是非线性激活函数， $H^l$ 是第 $l$ 层的特征，输入层特征 $H^0$ 为 $X$ 。
GAP使用三层GCN来提取特征：
$Z=tanh(\hat{A}tanh(\hat{A}tanh(\hat{A}XW^{0})W^1)W^2)$

GraphSAGE（Graph sample and aggregate approach）

论文：Inductive Representation Learning on Large Graphs
GAP模型使用GraphSAGE作为图嵌入模块，embedding既是高维特征的低维表示；GraphSAGE的核心是采样和聚合，先通过采样获取目标节点邻居的特征，再聚合邻居的特征生成目标节点的embedding。

GraphSAGE算法基本步骤如上图所示：

先对目标节点的邻居随机采样，降低计算复杂度（图中1跳邻居采样数=3，2跳邻居采样数=5）
生成目标节点embedding：先聚合2跳邻居特征，生成1跳邻居embedding，再聚合1跳邻居embedding，生成目标节点embedding
将目标节点的embedding输入全连接网络得到目标节点的预测值。

算法1的输入包含了 $k$ 个聚合函数，就是 $k$ 次embedding操作；伪代码第4行使用聚合函数聚合节点 $v$ 的邻居得到 $h_{N(v)}^k$ ，第5行 $h_{N(v)}^k$ 和 $h_v^{k-1}$ 拼接后进行非线性转换得到 $h_v^k$ ，最后经过L2正则化得到该层的输出。
此外，GraphSAGE算法支持miniatches处理节点和边：
算法2

算法2的伪代码2-7行阐述了GraphSAGE采样的过程； $\mathcal{B}$ 是要计算embedding的节点集合，即一个batch nodes； $B^{k-1}$ 表示节点 $v ϵ B^k$ 计算embedding需要的节点集合，所有 $B^{k-1}$ 是 $\mathcal{B}$ 节点集合的1跳邻居的节点集合； $N_k (u)$ 表示节点 $u$ 的邻居随机采样方法。算法2可以看出，GraphSAGE采样是从1跳邻居到 $k$ 跳邻居，聚合是从 $k$ 跳邻居到1跳邻居。

聚合函数

略，需要图

图分割模块

GAP模型的图分割模块比较简单，就是一个传统的全连接层 + softmax输出表示节点属于每个分区的概率。

损失函数

GAP模型的损失函数主要考虑两个方面：

割边数
负载均衡

定义

给定图 $G=(V,E),V=\{V_i\},E=\{e(v_i,v_j)|v_i\in{V},v_j\in{V}\}$ 表示图 $G$ 中的节点和边的集合， $n$ 为节点数。图 $G$ 可以被分割为 $g$ 个不相交的集合 $S_1,S_2,...,S_g$ ； $V$ 是 $g$ 个集合中节点的并集： $\bigcup_{k=1}^{g}S_k=V,\bigcap_{k=1}^{g}S_k=\emptyset$

最小割

形成不相交集合需要移除的边数成为割 $c u t$ ，给定集合 $S_k,\bar{S}_k$ ：
$cut(S_k,\bar{S}_k)=\sum_{v_i\in{S_k},v_j\in{\bar{S}_k}}e(v_i,v_j)$
推广到多个不相交集合：
$cut(S_1,S_2,...,S_g)=\frac{1}{2}\sum_{v_i\in{S_k},v_j\in{\bar{S}_k}}^{g}cut(S_k,\bar{S}_k)$
最小割的标准有利于分割度较小的节点，导致分割得到的子图负载不均衡。（比如一个节点只有一度，切割该节点的一条边就可以得到一个子图）