Graph Meta Learning via Local Subgraphs

最新推荐文章于 2024-09-02 19:40:12 发布

明前大奏

最新推荐文章于 2024-09-02 19:40:12 发布

阅读量905

点赞数 22

分类专栏：论文阅读文章标签：人工智能

本文链接：https://blog.csdn.net/qq_45022770/article/details/135748254

版权

论文阅读专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1 Introduction

元学习： 模型在两个层次上学习

第一个层次： 在单个任务上进行快速学习
第二个层次： 积累完成不同任务的历史经验(知识)，利用这些经验来捕捉目标域中的任务结构变化

1.1 Present work

作用在图上的元学习 Present Work:
在这里插入图片描述

A：元学习器通过观察同一图中的其他标签集来对未知标签集进行分类
B：元学习器通过学习具有相同标签集的其他图来学习未知的图
C: 元学习器通过在多个图上从其他标签集学习来对未知标签集进行分类 —— 对来自各种生物体的大量不完整和几乎没有标记【对其的认知不全面】的蛋白质-蛋白质相互作用（PPI）图进行有效的元学习，将积累的知识传递给人类，并使用它来预测人类PPI图中一个蛋白质节点的作用——将非人类生物（如酵母、斑马鱼和老鼠）的认知应用到人类问题上

蛋白质是构成一切细胞和组织结构必不可少的成分,它是生理功能的执行者,也是生命现象的体现者。不同的蛋白执行不同的生理功能。其中,存在一部分蛋白,通过基因剔除式突变将其移除后会造成有关蛋白质复合物功能丧失,并导致生物体无法生存,这类蛋白被称为关键蛋白。有效的预测关键蛋白对研究细胞的生长调控过程具有重要意义,对病原生物学的研究以及药物设计同样也具有重要价值
研究表明,一个蛋白的关键性与它在生物网络中所对应节点的拓扑特性密切相关
随着酵母双杂交、串联亲和纯化、质谱分析等高通量的蛋白组技术的发展,可获得的蛋白相互作用(protein-protein interaction,PPI)数据越来越多,为从网络水平上预测关键蛋白提供了条件

现有工作的缺点：

以前的方法是在整个图上进行训练 —— 当标签稀缺且分散在多个图上时，这些方法不太可能在小样本学习设置中成功
以前的方法捕获了整个图结构，但损失了更精细的局部结构
以前的方法仅适用于一个图元学习问题

论文工作：

核心原理： 用局部子图 local subgraphs 表示每个节点，并使用子图训练GNN进行元学习
局部子图 的优点：
- 允许直接的结构相似性比较，而结构相似性可以使模型能够通过度量学习算法形成急需的归纳偏差
- 允许在GNN内进行有效的特征传播和标签平滑

2 Related Work

Few-shot meta learning
Meta learning for graphs：
- 【24、62、7、53】：这些方法从单个图中学习，而论文工作可以处理多个图和不相交标签集的设置
- 【5】：用于图分类，而论文工作关注节点分类和链路预测 node classification and link prediction——链接预测就是预测网络中的两个节点是否有可能存在链接
- 【63 Meta-GNN】：设置为单个图和不相交标签集；基于梯度的节点分类元学习；将GNN作用在整个图；任务被定义为一批节点嵌入
- 【55】：关注具有多个图和跨图共享标签的设置
- 【3】：使用graph signature functions跨多个图进行小样本链接预测
Subgraphs and GNNs：
- 【61】：利用GNN从局部子图学习启发式—— 从给定的网络中学习一个启发式算法，而不是使用预定义的
- 启发式算法： 一种基于直观或经验构造【假设】的算法，在可接受的花费（指计算时间和空间）下给出待解决组合优化问题每一个实例的一个可行解，该可行解与最优解的偏离程度一般不能被预计 —— 假设不好、不成立，结果就不好
- 封闭子图(enclosing subgraph)：对节点对 (x,y),导出包括所有从 x 和 y 的 h 跳邻居所构成的子图
- Weisfeiler-Lehman

3 Background and Problem Formulation

图的集合： $\mathcal{G}={G_1,...,G_N}$
图： $G=(\mathcal{V},\large{\varepsilon},X)$
- $\mathcal{V}$ 是节点的集合
- $\large{\varepsilon}$ 是边的集合
- $X=\{x_1,...,x_n\}$ 是特征向量的集合， $x_u \in \mathbb{R}^d$ 是节点 $\in \mathcal{V}$ 的 $d$ 维特征向量
标签的集合： $\mathcal{Y}=\{Y_1,...,Y_M\}$
- $Y$ ：从 $\mathcal{Y}$ 中采样的一组标签
局部子图的集合： $\mathcal{S}=\{S_1,...,S_n\}$

节点分类的目标： 仅从少量的有标签节点中训练得到一个GNN $f_{\theta}$ ,使其能将某节点 $u$ 的局部子图 $S_u$ 映射到标签集合 $Y$ 中的标签
$f_{\theta}:\mathcal{S} \mapsto \{1,...,|Y|\}$

3.1 Background on graph neural networks

GNN学习捕获网络结构和节点特征的紧凑表示（嵌入）

消息传播网络(Message Passing Neural Network, MPNN) : 迭代更新节点的嵌入向量(embedding vector)

Neural message passing: $m_{uv}^{\{l\}} = M_{SG}(h^{(l-1)}_u,h^{(l-1)}_v)$
Neighborhood aggregation: $\hat{m}^{(l)}_u = A_{GG}(m_{uv}^{\{l\}} |v \in \mathcal{N}_u)$
Update: $h^{(l)}_u = U_{PD}(\hat{m}^{(l)}_u,h^{(l-1)}_u)$

神经网络既参与第一步生成消息的过程，又参与之后更新节点的嵌入向量的过程
当使用不同的神经网络模型作为消息生成函数和节点更新函数时，便可得到不同种类的MPNN模型

3.2 Background on meta learning

元集 meta-set $\mathcal{D}$ ： 又可以细分为 $\mathcal{D}_{train},\mathcal{D}_{val},\mathcal{D}_{test}$ ，具体来说由许多任务组成
任务 task $\mathcal{T}_i \in \mathcal{D}$ : 由 $\mathcal{T}_i^{support}$ 和 $\mathcal{T}_i^{query}$ 组成
N-way-K-Shot原则：
- N-way表示N个类别，K-shot代表K个样本
- 训练时，每次从训练集中采样N个类别，每个类别分别采样K+Q个样本，那么 $\mathcal{T}_i^{support}$ 包含N个类别，每个类别K个样本， $\mathcal{T}_i^{query}$ 包含N个类别，每个类别Q个样本

3.3 G-META: Problem Formulation

Shared labels: 每个任务共享相同标签集
Disjoint labels: 任务i 和任务j之间的标签集不相关
data point： 局部子图 $S_u$ + 标签 $Y_u$ —— 一个任务中

G-META: 在观察相关任务 $\mathcal{T}\thicksim p(\mathcal{T})$ 后能适应一项只有少数样本可用的新任务 $\mathcal{T}_* \thicksim p(\mathcal{T})$

Graph meta-learning problem 1: Single Graph and Disjoint Labels
- 具有图 $G$ 和一个标签集(labels)分布 $p (Y ∣ G)$
- 目标： 通过学习已有的标签集 $Y_i \thicksim p(Y|G)$ ，来适应未知标签集 $Y_* \thicksim p(Y|G)$ ，其中 $Y_i \cap Y_* = \emptyset$
Graph meta-learning problem 2: Multiple Graphs and Shared Labels
- 具有一个图(graphs)的分布和一个标签集 $Y$
- 目标： 从图 $G_j \thicksim p(G)$ 中学习，以快速适应未知图 $G_* \thicksim p(G)$ ,其中 $G_j$ 和 $G_*$ 不相关，所有的任务共享相同的标签集
Graph meta-learning problem 3: Multiple Graphs and Disjoint Labels
- 具有一个标签集(labels)分布 $p(Y|\mathcal{G})$ 以及多个不同的图
- 每个任务拥有自己的标签集但同一个的标签集可能出现在不同图中
- 目标： 快速适应一个未知标签集 $Y_* \thicksim p(Y|\mathcal{G})$ , 通过学习与其不相关的标签集 $Y_*i\thicksim p(Y|\mathcal{G})$ ,其中 $Y_i \cap Y_* = \emptyset$

4 Local Subgraphs and Theoretical Motivation for G-META

首先，描述如何构造局部子图
然后，提供理论依据证明局部子图能够从整幅图中保存有用的信息
接着，论述子图如何使G-META能够捕获关于图结构、节点特征和标签的足够信息，并将这些信息用于图元学习

局部子图： $S_u = (\mathcal{V}^u,\large{\varepsilon}^u,X^u)$

从一组节点 $\{v|d(u,v) \leq h\}$ 导出，其中 $d (u, v)$ 是节点 $u$ 和 $v$ 之间的最短路径距离， $h$ 定义了领域大小
在元任务中从图或标签集中采样子图

一个问题： 子图是否因排除其外部的节点而丢失信息？ —— 作者在理论上表明，与在整个图上使用GNN相比，在局部子图上应用GNN可以保留有用的信息

4.1 Preliminaries and definitions

使用 GCN作为示例

Assumptions:

第 $l$ 层GCN传播规则: $\sigma(\hat{A}H^{(l)}W^{(l)})$ ,其中 $\hat{A}=D^{-1}A$ 为归一化后的邻接矩阵
假设 $\sigma$ 为恒等函数identity function， $W$ 是单位矩阵identity matrix

Definitions：

Unifying Graph Convolutional Neural Networks and Label Propagation

Node influence $I_{u,v}$ : 在GNN的最终输出中，节点v对u的影响为： $I_{u,v} = ||\partial{x_u^{(\infty)} }/ \partial{x_u^{(\infty)}} ||$ ；【范数是任何从属范数，Jacobian度量v的变化如何转化为u的变化】
Graph influence $I_G$ : $I_G(u)=||[I_{u,v_1},...,I_{u,v_n}]||_1$ ， $I_{u,v_1},...,I_{u,v_n}]$ 为其他节点对u的影响而构成的向量
Graph influence loss $R_h$ : $R_h(u)=I_G(u)-{I_{S_u}(u)}$ ， $I_G(u)$ 是整个图G的影响， $I_{S_u}(u)$ 是局部子图 $S_u$ 的影响

影响如何在节点之间传播，这取决于图中节点之间的距离

Theorem 1 (Decaying Property of Node Influence)

$t$ : 节点 $u$ 和 $v$ 之间的路径
$D_{GM}^t$ : 路径 $t$ 上出现的节点度的几何平均值
令 $D_{GM}^{t_*}=min_t{D_{GM}^t},h_*=d(u,v)$ ,那么有 $I_{u,v} \leq C/(D_{GM}^{t_*})^{h_*}$

发现 ： 指出节点v对节点u的影响随着它们的距离h*的增加而呈指数衰减
发现 ： 影响 influence 在很大程度上取决于两个节点之间路径的累积节点度: 如果路径是节点的直线（低累积节点度），则节点影响高。否则，如果路径由到其他节点的大量连接组成（高累积节点度），则节点影响最小
高累积节点度可以沿着路径带来复杂的消息，这抑制了每个单独节点的影响，而低度路径可以将消息直接传递到目标节点。由于真实世界的图通常是具有相对较高节点度的复杂图，因此节点影响将相当低

Theorem 2 (Local Subgraph Preservation Property)

子图 $S_u$ : 邻域大小为 $h$ 的节点 $u$ 的局部子图
节点 $v=argmax_w(\{I_{u,w}|w \in \mathcal{V} \setminus \mathcal{V}^u\})$
$\overline{t}$ 为节点 $u$ 和 $v$ 之间的路径， ${D_{GM}^{\overline{t}}}$ 为路径 $\overline{t}$ 上的节点度的几何平均值
令 ${D_{GM}^{\overline{t}_*}}=min_{\overline{t}}\{{D_{GM}^{\overline{t}}}\}$ ,则有 $R_h(u) \leq C /(D_{GM}^{\overline{t}_*})^{h+1}$

发现 ： 随着h的增加，图的影响损失呈指数级衰减，即局部子图公式是对整个图应用GNN的h阶近似

Local subgraphs enable few-shot meta-learning：结合上述理论论证，加以局部子图的构造所包含的内容：

Structures：
- 图结构为预测提供了另一种强信号来源[9，45]，尤其是当节点标签稀缺时
- GNN表示不能完全捕获大型图结构，因为它们太复杂了[3，54]，但是它们可以学习捕获小图的结构的表示 —— as is evidenced by the connection to the Weisfeiler-Lehman test [54, 60]
- 因此，子图使G-META能够捕获结构节点信息
Features： 局部子图保留有用的信息，如以上定理所示
Labels：
- 当只有少数节点被标记时，在整个图中有效地传播标签是一项挑战[64，23]
- 度量学习 Metric-learning方法[37]学习特定于任务的度量，以使用来自支持集的最接近点对查询集数据进行分类，已被证明是一种有效的归纳偏置 inductive bias[37,42]

总结： G-META配备了捕获结构和特征信息的子图表示，使用度量学习比较查询子图嵌入和支持子图嵌入。因此，它避免了标签信息太少而无法有效传播的问题

5 G-META: Meta Learning via Local Subgraphs

首先，构造局部子图
然后，使用GNN编码器生成子图的嵌入
最后，使用原型损失来表示归纳偏差，并使用MAML来表示图和标签之间的知识转移

在这里插入图片描述

5.1 Neural encoding of subgraphs

在每个元任务中，首先为每个节点 $u$ 构造子图 $S_u$ ：使用h-hops neighbors 方法【也可以考虑其他子图提取算法，例如[6，11]】
然后，将每个子图 $S_u$ 送到h层GNN中，以获得子图中每个节点的嵌入，h被设置为子图邻域的大小
质心节点 $u$ 的嵌入 ： $h_u = Centroid(GNN(S_u))$ —— 用来表示子图
局部子图不用于神经消息传递；相反，将它们用于元学习

Note : 质心节点嵌入是论文框架的一个特定实例化。可以考虑其他方法来替代子图表示，如子图神经网络 subgraph neural networks [1，57]或子图中节点上特定的读出函数 readout functions[54，5]
Note :论文框架不将子图约束到h-hops neighbors，也不将子图神经编码约束到质心嵌入centroid embedding

5.2 Prototypical loss

利用子图表示和标签之间的归纳偏差来规避小样本学习设置中有限标签信息的问题

对每个标签 $k$ , 对其对应的支持集support set子图嵌入求均值来获得其原型表示 $c_k$ : $c_k = 1/N_k \sum_{y_j=k}{h_j}$
对存在于支持集或查询集中的每个局部子图 $S_u$ ，通过每个类的支持原型和其质心嵌入之间的欧几里得距离 Euclidean distance 来计算类分布向量 $p$ ： $p_k=(\exp(-||h_u-c_k||)/(\sum_{\hat{k}}{\exp(-||h_u-c_{\hat{k}}||)}))$
使用来自局部子图的类分布向量来优化交叉熵损失cross-entropy loss ： $L(p,y)=\sum_{j}y_j\log{p_j}$ ， $y$ 表示真正标签的一个热编码 one-hot encoding

5.3 Optimization-based meta-learning

通过将节点划分为独立的局部子图分类任务来打破节点对图的依赖，从而允许直接适应MAML—— 单个子图可以被视为单个图像
首先对一批任务进行采样，其中每个任务都由一组子图组成

元训练：

meta-training inner loop：
- 首先，对每个任务 $\mathcal{T}_i$ 的支持损失support loss 进行regular stochastic gradient descent : $\theta_j = \theta_{j-1}-\alpha\nabla\mathcal{L}_{support}$
- 然后，使用查询集评估更新后的参数，并将任务 $\mathcal{T}_i$ 的查询损失记为 $\mathcal{L}^i_{query}$
- 重复上述步骤 $\eta$ 次
meta-training outer loop : 将各个任务最后一个更新步骤中的 $\mathcal{L}^i_{query}$ 进行汇总，执行元更新 meta-update： $\theta = \theta - \beta\nabla\sum_i{\mathcal{L}^i_{query}}$
重新采样，重复上述步骤更新元参数 $\theta$

元测试： 使用最终的元更新参数 $θ_*$ 应用上述相同程序 —— $θ_*$ 是从元训练任务的知识中学习的，是快速适应看不见的任务的最佳参数

5.4 Attractive properties of G-META

Scalability: 满足快速计算和低内存需求，因为G-META的聚合域小于以前在整个图上操作的方法[3，63]。我；图小样本学习不会评估图中的所有样本，因为小样本学习意味着大多数标签不存在。因此，每个任务仅由几个带有标签的样本组成，这是快速操作
Inductive learning:：强制对未知子图进行归纳；允许从元训练子图到元测试子图的知识转移
Over-smoothing regularization:：GNN的一个局限性是，在同一图上进行多次迭代传播后，连接节点变得越来越相似。相反，G-META的每次迭代都由一批具有不同结构、大小和节点的不同子图组成，其中每个子图都被单独送到GNN中，这防止了GNN对单个图的结构进行过度平滑
Few-shot learning： 与主流的GNN形成对比，后者需要很大一部分标记节点才能在图中成功传播神经消息
Broad applicability: G-META适用于许多图元学习问题，而以前的方法最多适用于一个;同时适用于节点分类和链接预测

6 Experiments

6.1 Synthetic datasets

旨在展示G-META捕获局部网络结构的能力

在这里插入图片描述

第一个合成数据集Cycle：graphs with planted structural equivalence from GraphWave [9]——合成的结构同等性图——某些节点具有相似网络结构, 即使这些节点相距较远
- 使用环形基础网络cycle basis network，并在环形基础上附加形状分布：房子House、星星Star、钻石Diamond、风扇Fan
- 每个节点的标签是由形状定义的结构角色 structural role
- 添加随机边作为噪声；在多图问题中，每个图都具有不同的形状数量分布
第二个合成数据集BA : 为了在更真实的homophily 图【同质性】下对局部结构信息进行建模，构造了一个Barabási-Albert（BA）图，然后在图上植入不同的形状无标度网络,BA解释,BA解释
- 为每个节点计算Graphlet Distribution Vector[31]Graphlet解释，用来表征局部图结构，接着对该向量应用谱聚类来生成标签
- 对于多图问题，使用形状数量的变化分布来种植每个BA图

在这里插入图片描述

6.2 Real-world datasets and new meta-learning datasets

使用三个真实世界的数据集进行节点分类，使用两个数据集进行链接预测来评估G-META

ogbn-arxiv：CS引文网络，其中特征是标题，标签是主题领域
Tissue-PPI ：来自不同组织的24个蛋白质-蛋白质相互作用网络，其中特征是基因签名，标签是基因本体功能
Fold-PPI ：
- 为多图和不相交标签问题构建了一个新的数据集
- 有144个组织PPI网络[67]，标签是SCOP数据库中定义的蛋白质结构，特征是联合三联体蛋白质描述符 conjoint triad protein descriptor
- 筛选网络中具有9种以上独特蛋白质的折叠组。它产生了29个独特的标签。与许多真实世界的图一样，在Fold PPI中，大多数节点没有关联的标签，表明了图小样本学习的重要性
FirstMM-DB ：用于跨图链接预测的标准3D点云数据，由41个图组成
Tree-of-Life ：基于1840个蛋白质相互作用网络构建的新数据集，每个网络都来自不同的物种；由于没有提供节点特征，因此使用节点度代替

在这里插入图片描述

6.3 Experimental setup

节点分类：
- 对于不相交的标签设置，我们采样5个标签用于元测试，5个用于元验证，其余用于元训练
- 对于合成数据集：元训练每个任务设置为2-ways 1-shot，具有5个梯度更新步骤，元测试中有10个梯度更新步长
- 对于真实世界数据集，元训练每个任务设置为3-ways 3-shots，有10个梯度更新步骤的，元测试中有20个梯度更新步骤
  +对于多个图形共享标签设置，所有图形的10%（10%）用于测试（验证）。剩下的图用于训练。对于fold-PPI，使用10个双向蛋白质功能任务的平均值
链路预测:
- 10%的图表用于测试，另外10%用于验证。对于每个图，支持集由30%的边组成，查询集由70%的边组成
- 负边被随机采样以匹配相同数量的正边
- 对每个任务使用16个样本，即仅使用32个节点对来预测看不见的图的链接
- 元训练中设置10个梯度更新步骤,元测试中设置20个梯度更新步长
- 每个实验重复五次，以计算结果的标准偏差