Molecular Representation Learning via Heterogeneous Motif Graph Neural Networks

本文链接：https://blog.csdn.net/qq_41200212/article/details/128717470

Molecular Representation Learning via Heterogeneous Motif Graph Neural Networks

基本信息

博客贡献人

小钻风

作者

Zhaoning Yu,Hongyang Gao

[重要作者提示]

摘要

图神经网络已被广泛用于分子图的特征表示学习中。然而，大多数现有方法单独处理分子图而忽略了它们之间的联系，例如基序级关系。本文提出了一种新的分子图表示学习方法，通过构建异构基序图来解决这个问题。特别的，本文构建了一个包含基序节点和分子节点的异构基序图。每个基序节点对应于从分子中提取的基序。然后，本文提出了一个异构基序图神经网络（HM-GNN）来学习异构基序图中每个节点的特征表示。本文的异构基序图还可以实现有效的多任务学习，尤其是对于小分子数据集。为了解决潜在的效率问题，本文建议使用边缘采样器，它可以显著减少计算资源的使用。实验结果表明，本文的模型始终优于以前的最先进模型。在多任务设置下，本文的方法在组合数据集上表现出优秀性能，揭示了在小分子数据集的新的学习范式。最后，本文的模型通过使用边缘采样器以更少的计算资源达到了相同的性能。

问题定义

大多数现有的 GNN 使用基本的分子图拓扑结构，通过邻域特征聚合和池化方法获取结构信息进行分子特性预测，然而，这些方法没有考虑分子图之间的联系，特别是分子图中基序对（motif）的共享。分子图与其他图结构（例如社交网络图和引用图）之间的关键区别之一是，分子图中的常见子图即motif，具有特殊含义，例如分子中的连接和环。广泛用于GNN解释的一个事实是碳环和NO2基团往往具有诱变性。因此，在设计用于motif级特征表示学习的GNN时，motif值得更多关注。

方法

方法架构图

请添加图片描述

图1：构建motif词汇表。搜索所有分子图并提取重要的子图，在这项工作中，只保留键和环以确保可管理的词汇量。然后删除所有重复的键和环，一些motif可能出现在大多数分子中，这些motif携带的分子表征信息很少。为了减少这些常见motif的影响，本文采用词频-逆文档频率 (TF-IDF) 算法。

示例：给定一种毒酸，首先从其原子图中提取六个键和环。删除重复项后，将五个独特的motif添加到词汇表中。蓝色、红色和紫色节点分别代表碳、硫和氧原子。

请添加图片描述

Figure 2 异构基序图示例

图2：异构基序图的示例。在此图中，有五个分子节点：苯酚、苯乙烯、甲苯、间甲酚和 3-氯苯酚。在这里，词汇表中有五个motif。如果分子图中包含该motif，则将分子节点与motif节点连接起来。例如，苯酚具有苯和碳氧键，则将苯酚节点与苯节点和碳氧键节点连接起来。如果两个motif节点在分子中至少共享一个原子，则将它们连接起来。在此图中，连接苯节点和碳氧键节点，因为它们共享一个碳原子。

请添加图片描述

Figure 3 HM-GNN

图3： HM-GNN 模型。给定一个输入 Phenol，首先在其原子级图结构上应用 GNN （5层GNN、2层MLP）来学习其原子级特征嵌入。同时，将其添加到异构基序图中，并使用异构 GNN（3层GIN）来学习其motif级图嵌入。在异构基序图中，苯酚是分子节点之一。最后，将来自两个 GNN 的图嵌入连接起来，并将它们送入 MLP 进行预测。

方法描述

在分子特性预测应用中，本文提出了一种新方法来学习分子图的motif级特征嵌入。给定分子图，首先从中提取motif并构建包含所有这些motif的motif词汇表。然后构建了一个包含所有motif节点和分子图节点的异构基序图。应用 GNN 来学习基于异构基序图的每个分子图的motif级表示。异构基序图中的消息传递使motif和分子图之间能够相互作用，这有助于分子图之间的信息交换。实验结果表明，学习到的motif级嵌入可以显著改善分子的表示。

分子图的motif词汇表

在分子图中，motif是重复出现且具有统计意义的子图。具体到生化分子图里，motif可以是键和环。近似的表示，图中的一条边代表实际的一个键，一个环代表实际的一个环。因此，我们可以从motif词汇表中的子图或motif构建分子。为了用motif表示分子，首先构建一个motif词汇表，其中包含来自给定分子图的有效子图。

本文采用词频-逆文档频率 (TF-IDF) 算法，词频测量分子中motif出现的数量，而逆文档频率是指包含该motif的所有分子图数量。将包含motif的那些分子图的 TF-IDF 平均值为motif的 TF-IDF 值。通过 TF-IDF 对motif词汇表进行排序，在最终的motif词汇表中保留了最基本的motif。

构建异构基序图

基于motif词汇表，构建了一个包含motif节点和分子节点的异构图。在这张异构图中，每个motif节点代表词汇表中的一个motif，每个分子节点都是一个分子图。然后，在这些节点之间建立两种类型的边：motif与分子图连接的边、motif之间的边。分子节点与其包含的motif节点之间连边，如果两个motif在任意一个分子图中至少共享一个原子，就在两个motif之间添加一条边。通过这种方式，构建一个异构motif图，其中包含motif词汇表中的所有motif和所有分子图。

不同的motif有不同的影响，根据边的结束节点为边分配不同的权重。对于motif节点和分子节点之间的边，使用motif的 TF-IDF 值作为权重。对于两个motif节点之间的边，使用点互信息PMI算法赋值。

节点 i 和节点 j 之间的边权重 $A_{ij}$ 计算公式:

$A_{i,j}=\begin{cases} PMI_{ij}, & \text{if i,j are motifs} \\ TF-IDF_{ij},& \text{if i or j is a motif}\\ 0,& \text{Otherwise}\end{cases} \tag{1}$

motif节点 i 和分子节点 j 之间边的 TF-IDF 值计算公式：

$TF-IDF_{ij}=C(i)_j\left(\begin{matrix}log\frac{1+M}{1+N(i)}+1 \end{matrix}\right), \tag{2}$

$C(i)_j$ 是motif i 在分子j中出现的次数，M是分子的数量，N(i)是包含motif i 的分子数。

两个motif节点之间的边的 PMI 值计算公式：

$PMI_{ij}=log\frac{p(i,j)}{p(i)p(j)} \tag{3}$

其中 p(i, j) 是分子同时包含motif i 和motif j 的概率，p(i) 是分子包含motif i 的概率，p(j) 是分子包含motif j 的概率。使用以下公式来计算这些概率:

$p(i,j)=\frac{N(i,j)}{M}\quad p(i)=\frac{N(i)}{M}\quad p(j)=\frac{N(j)}{M},\tag{4}$

其中 N(i, j) 是同时包含motif i 和motif j 的分子数，为具有负 PMI 值的motif节点对分配零权重。

异构基序图神经网络

我们使用one-hot编码为motif节点生成特征。特别地，每个motif节点 i 都有一个长度为 |V | 的特征向量 $X_i$ ，其中 V 表示motif词汇表。给定motif在词汇表中的唯一索引 i，将 $X_i$ [i] = 1 ,其他位置设置为 0。对于分子节点，使用词袋方法来填充它们的特征向量，将每个motif视为一个词，将每个分子视为一个文档。通过应用词袋模型，可以获得分子节点的特征向量。基于这种异构图，应用异构图神经网络来学习图中每个分子的motif级特征嵌入。

同时，以原子为节点，以键为边，每个分子都可以很容易地转换成图。原始分子图拓扑和节点特征包含原子级图信息，可以补充motif级信息。因此，使用另一个图神经网络来学习原子级特征嵌入。最后，将来自两个图神经网络的特征嵌入连接起来，并将它们馈送到多层感知器 (MLP) 中进行预测

通过异构基序图的多任务学习

这部分展示异构图可以通过多任务学习，帮助小分子数据集进行图深度学习。众所周知，深度学习方法需要大量数据进行训练。然而，大多数分子数据集相对较小，图深度学习方法很容易在这些数据集上过度拟合。多任务学习 (Caruana, 1997) 已被证明可以有效降低过度拟合的风险，并有助于提高所有任务的泛化性能 (Zhang & Yang, 2017)。它可以有效地增加训练数据的大小并减少数据相关噪声的影响，从而使模型更加稳健。然而，由于不同数据集之间缺乏明确的联系，很难将多任务学习直接应用于多个分子数据集。

基于异构图，可以轻松连接一组分子数据集并形成多任务学习范式。给定 N 个分子数据集 $D_1$ , · · · , $D_N$ ,每个数据集 $D_i$ 包含 $n_i$ 个分子。首先构建一个motif词汇表 V，其中包含来自 N 个分子的motif。在这里，motif 只需要在一些数据集中共享，而不是在所有数据集中共享。然后，构建了一个异构图，其中包含来自所有数据集的分子和分子中的motif。使用 HM-GNN 来学习基于该图的每个分子的图级和motif级特征表示。每个数据集的结果特征被送入一个单独的 MLP 进行预测。在此过程中，motif节点可以被视为连接来自不同数据集或任务的分子的连接器。在多任务训练范式下，异构图可以改进所有数据集上的特征表示学习。

通过边采样进行高效训练

随着分子节点数量的增加，计算资源可能会出现问题。为了解决这个问题，我们建议使用边缘采样器来减少异构主题图的大小。由于我们的异构模体图具有两种节点和两种边的特殊结构，我们可以有效地生成一个使用边的类型计算子图。形式上，GNN 的第 ℓ 层可以表示为:

$x_i^{ℓ+1}=f(x_i^ℓ,\phi(\left\{e_{ji},x_j^{ℓ}|j\in N(i)\right\}))\tag{5}$

其中 $x_i^{ℓ+1}$ 是节点 i 的新特征向量， f 是结合第 ℓ 层特征与聚合特征的函数， $\phi$ 是聚合节点 i 所有邻居特征的函数， $e_{ji}$ 是边 $e_{ji}$ 的权重，N(i) 是节点 i 的邻居集合。这个等式表明时间和空间复杂度都是O(|E|)，其中|E|是图中的边数。这意味着可以通过从图中删除一些边来减少计算资源的使用。因此，使用边缘采样器从图中采样边缘。采样规则是优先考虑motif-分子边缘。首先随机选择一些分子节点作为“起始”节点。采用广度优先算法，从这些节点开始对异构图进行逐跳搜索。在每一跳中，根据边缘类型随机采样固定大小的边缘。

请注意，每个分子节点的第一跳邻居是motif节点，它们在异构图中起着至关重要的作用。因此，保留所有第一跳边确保有效学习motif节点的特征表示。从第二跳开始，我们只对 motif-motif 边进行采样以保留尽可能多的 motif 信息。

请添加图片描述

Figure 4 边缘采样

通过边缘采样器为 3 层 HM-GNN 生成子图的示例。采样规则是分别对每一层的所有边、一条边、两条边进行采样（首先选择motif-motif边）。在此图中，有四个分子节点（红色）和七个motif节点（蓝色）。用实线表示选中的边，用虚线表示未选中的边。随机选择分子节点 S 作为“起始”节点。在第一跳中，保留连接节点 S 和motif节点的所有边。在第二跳中为连接到节点 S 的每个motif节点采样一条motif-motif边。在第三跳中，为最后一跳中每个新添加的motif节点选择两条motif-motif边。最后，生成的子图包含采样的所有节点和边。

实验

实验设置

dataset

	NCI1	MUTAG	PTC	Mutagenicity
图总数	4110	188	344	4337
平均节点数	29.87	17.93	25.5
节点类别（特征）	37	7	19
平均边数	32.3	19.79	14.69
边类别	3	11
图类别	2	2	2
最大节点数	109	28
边数		7442		266894
节点总数		3371		131488

1.MUTAG 数据集中含有 188 种化合物，并根据其是否含有诱导有机体突变的物质而分成两类，具有诱变性质的物质有125 种，称之为正类；没有诱变性质的物质有63 种，称之为负类。每个化合物用一个图表示，图中的节点表示化合物的原子，边表示原子之间的键。

2.PTC 数据集中含有417 种化合物，并根据这些化合物对某种特定的生物是否具有致癌作用而将其分成两类，具有致癌作用称为正类，不具有致癌性称为负类。PTC_MM、PTC_FM、PTC_MR、PTC_FR 分别指将这417 种化合物在雄性大老鼠（Male Mouse）、雌性大老鼠（FemaleMouse）、雄性小老鼠（Male Rat）、雌性小老鼠（Female Rat）上进行实验的结果。为了实验具有代表性，从417 种化合物中选取标有P 的化合物为正类，标有N 的化合物为负类组成数据集进行实验。PTC_MM、PTC_FM、PTC_MR、PTC_FR 中图的平均节点数分别为25.05、25.25、25.56、26.08，平均边数为25.39、25.62、25.96、26.53。

3.NCI 包含60 个数据集，每个数据集中均包含有上千种化合物，总共记录了近七万种化合物对60 种人类肿瘤细胞株是否具有抑制作用。具有抑制作用的称为正类，不具有抑制作用的称为负类。NCI 数据集中的化合物含有的节点和边数相差较大，最大的化合物含有的节点数高达109 个。相对于数据集MUTAG 和数据集PTC，数据集NCI 更大，且正类和负类的比值更加平衡。

实验设置

对于每个数据集，采用 10 折交叉验证，并对整个数据集进行随机拆分，报告平均值和标准偏差。

实验结果及分析

请添加图片描述

在五个数据集上与十个最先进的图分类任务 GNN 模型进行比较：PatchySAN（Niepert 等人，2016 年）、GCN（Kipf 和 Welling，2016 年）、GraphSAGE（Hamilton 等人） al, 2017), Deep Graph CNN (DGCNN) (Zhang et al, 2018), 图同构网络 (GIN) (Xu et al, 2018), Provably Powerful Graph Networks (PPGN) (Maron et al, 2019), Capsule Graph Neural Network (CapsGNN) (Xinyi & Chen, 2018)、Wasserstein Embedding for Graph Learning (WEGL) (Kolouri et al, 2020)、GraphNorm (Cai et al, 2021) 和 GSN (Bouritsas et al, 2022)。对于基线模型，参照其原始论文的准确性。模型在所有五个数据集上始终优于基线模型。在四个分子数据集上的优越性能表明，从 motif 词汇表构建的 motif 节点可以帮助 GNN 更好地学习分子图的 motif 级特征表示。在蛋白质数据集上，模型也表现最好，这表明蛋白质分子中的motif也包含有用的结构信息。

在大规模数据集上的性能研究

使用来自开放图基准 (OGB)（Hu 等人，2020 年）的两个生物信息学数据集：ogbg-molhiv 和 ogbgmolpcba 这两个分子特性预测数据集。

请添加图片描述

计算效率研究

在算法中，如果固定采样规则，起始节点的数量是一个超参数，来控制采样的异构图的大小。起始节点的数量影响训练效率和模型性能，在这一部分中，进行实验以研究其对 Ogbg-molhiv 数据集的影响，并根据 ROC-AUC 报告了相应的模型性能。

请添加图片描述

Motif 词汇量研究

从图中，可以观察到模型性能随着保持率的增加而提高。较高的保持率会增加motif词汇表中的数量，从而导致更好的motif级特征传播。图中的分子有更多的连接器（motif）与其他分子交流。当保持率大于 80% 时，模型性能开始下降，这表明最后 20% 的motifs 是噪音，会损害模型的泛化和鲁棒性。值得注意的是，即使motif词汇表中只有 50% 的最重要的motif，模型仍然可以比 GIN 高出 1.37%，这证明了motif级特征表示的重要贡献。

请添加图片描述

[启发]

Motif结构不仅仅是键和环，可以考虑其他子结构，比如官能团。

BibTex

@inproceedings{yu2022molecular,
  title={Molecular Representation Learning via Heterogeneous Motif Graph Neural Networks},
  author={Yu, Zhaoning and Gao, Hongyang},
  booktitle={International Conference on Machine Learning},
  pages={25581--25594},
  year={2022},
  organization={PMLR}
}