Motif-based Graph Self-Supervised Learning for Molecular Property Prediction
基本信息
博客贡献人
秦明
作者
Zaixi Zhang, Qi Liu, Hao Wang, Chengqiang Lu, Chee-Kong Lee
摘要
近年来,用数据驱动的方法预测分子性质引起了人们的广泛关注。特别是,图形神经网络(GNN)在各种分子生成和预测任务中表现出显著的成功。在标记数据稀缺的情况下,可以在未标记的分子数据上对GNN进行预训练,以便在针对特定任务进行微调之前首先学习一般的语义和结构信息。然而,大多数现有的GNN自我监督预训练框架只关注节点级或图级任务。这些方法无法捕获子图或图基序中的丰富信息。例如,官能团(分子图中经常出现的子图)通常携带关于分子性质的指示信息。为了弥补这一差距,我们提出了基于Motif的图自监督学习(MGSSL),通过为GNN引入一种新的自监督主题生成框架。首先,为了从分子图中提取基序,我们设计了一种分子碎片化方法,该方法利用基于逆转录合成的算法金砖和控制基序词汇大小的附加规则。其次,我们设计了一个通用的基于基序的生成预训练框架,其中GNN被要求进行拓扑和标签预测。这种生成框架可以以两种不同的方式实现,即广度优先或深度优先。最后,为了考虑分子图中的多尺度信息,我们引入了多级自我监督预训练。对各种下游基准任务的大量实验表明,我们的方法优于所有最先进的基线。
问题定义
-
GNN在分子性质预测方面通常需要大量标记数据(即具有已知性质数据的分子),因为这些标记数据只能从室实验或量子化学计算中获得,这既耗时又昂贵。此外,以监督的方式在小标记分子数据集上直接训练GNN容易过度拟合,并且训练的GNN很难推广到分布外的数据。再者,小分子基团(官能团)在分子性质预测上发挥着巨大作用,一个可以标识官能团的预处理方法,可以有效提高模型对于分子有效结构的提取,因此该文章提出基于Motif的图自监督学习(MGSSL)和多级自监督预训练。
-
给定一个药物分子 G = ( V , E ) G=\left (V,E \right ) G=(V,E),构建一棵motif树 τ ( G ) = ( ν , ε , χ ) \tau \left (G\right )=\left ( \nu ,\varepsilon,\chi \right ) τ(G)=(ν,ε,χ),其中树的节点可以看作官能团,也就是药物分子图的子图M,官能团的提取采用的是Brics算法,将分子中可以参与化学反应的键断裂,可以形成不同的子结构,我们将它作为motif树的节点,motif树的节点表示为 ν = { M 1 , . . . M n } \nu =\left \{ M_{1},...M_{n} \right \} ν={M1,...Mn},我们将药物分子转换成motif树的形式,将motif树作为预训练的数据,将预训练好的参数最后用于下游任务。
-
这类任务的挑战:
- 预训练模型应如何构建预训练任务才能更好的迁移到下游任务
- DFS和BFS的多层迭代导致代码效率较低
方法
方法描述
MGSSL
- 基于Motif的图形自监督学习(MGSSL)的图示。多级预训练包括两层,Atom层和Motif层。在Atom层中,我们屏蔽节点/边缘属性,并让GNN基于相邻结构预测这些属性。在Motif层,我们构建主题树并进行主题生成预训练。在每个步骤中,基于现有的基序和连接,迭代地进行拓扑和基序预测
motif树的构建方法
分子碎裂概述,一般来说,有三个步骤:
(1)首先基于BRICS切割分子图。
(2) 进一步分解以减少基序的冗余。
(3)从分子图构建基序树。在预处理整个分子数据集后,构建基序词汇表
预训练任务构建
- MGSSL预训练模型所采用的任务目标是将motif树进行重新构建,构建的顺序有深度优先和广度优先两种策略,为了从头生成主题树,我们需要首先选择motif树的根。在我们的实验中,我们只需选择具有规范顺序中第一个原子的基序。然后,MGSSL以DFS或BFS顺序生成基序。在DFS顺序中,对于每个访问的motif,MGSSL首先进行拓扑预测:该节点是否有要生成的子节点。如果生成了一个新的子基序节点,我们就预测它的标签并重复这个过程。当没有更多的子代要生成时,MGSSL会回溯。对于BFS顺序,MGSSL逐层生成基序节点。对于第k层中的基元节点,MGSSL进行拓扑预测和标签预测。如果生成了第k层中所有基序的子节点,则MGSSL将移动到下一层。
拓扑预测
当MGSSL访问motif i 时,它需要对是否要生成子对象进行二分类预测。我们通过一个单隐层网络计算概率P:
p
t
=
σ
(
U
d
⋅
τ
(
W
1
d
x
i
+
W
2
d
∑
(
k
,
i
)
∈
ε
^
h
k
,
i
)
)
p_{t}=\sigma \left (U^{d}\cdot \tau \left ( {W_{1}}^{d}x_{i}+W_{2}^{d}\sum_{(k,i)\in \hat{\varepsilon }}^{}h_{k,i} \right ) \right )
pt=σ
Ud⋅τ
W1dxi+W2d(k,i)∈ε^∑hk,i
其中d是隐藏层的尺寸
Motif标签预测
当motif i生成子motif j时,我们用:
q j = s o f t m a x ( U l τ ( W l h i j ) ) q_{j}=softmax\left ( U^{l} \tau\left ( W^{l}h_{ij} \right ) \right ) qj=softmax(Ulτ(Wlhij))
其中
q
j
q_{j}
qj是motif词汇表
χ
\chi
χ上的分布,
l
l
l是隐藏层维度。设
p
^
t
∈
{
0
,
1
}
\hat{p}_{t}\in \left \{ 0,1 \right \}
p^t∈{0,1}和
q
j
q_{j}
qj为是否有节点的二项分布和标签值,motif生成损失是拓扑的交叉熵损失和标签预测损失之和:
ι
m
o
t
i
f
=
∑
t
ι
t
o
p
o
(
p
t
,
p
t
^
)
+
∑
j
ι
p
r
e
d
(
q
j
,
q
j
^
)
\iota _{motif}=\sum_{t}\iota_{topo}(p_{t},\hat{p_{t}})+\sum_{j}\iota_{pred}(q_{j},\hat{q_{j}})
ιmotif=t∑ιtopo(pt,pt^)+j∑ιpred(qj,qj^)
实验结果及分析
评估指标
ROC-AUC(%)
使用数据集
- muv
- clintox
- sider
- hiv
- tox21
- bace
- toxcast
- bbbp
- ZINC15
- 我们使用从ZINC15数据库中采样的250k未标记分子进行自我监督的预训练任务。对于下游微调任务,我们考虑MoleculeNet中包含的8个二分类基准数据集。
baseline介绍
-
最大化整个图的表示及其采样子图的表示之间的互信息
-
屏蔽节点/边缘特征,并让GNN预测这些属性
-
将预训练任务设计为从某个节点采样的区分自我网络,从其他节点采样的自我网络
-
基于原子嵌入预测上下文属性,以将上下文信息编码为节点嵌入。
-
这是一个生成性的预训练任务,它预测掩码边和节点属性。
实现效果对比
实验表明,不同的motif树的重构策略在不同数据集上表现有着略微的差异,但总体结果比baseline要更优秀,这表明,motif-tree的重构这样的预训练任务学到了更多的结构性知识
不同GNN的影响
比较不同GNN架构的训练前增益,8个基准数据集的平均ROC-AUC(%)观察到所有这些GNN架构都可以从基于基序的预训练任务中受益。此外,GIN在预训练后获得了最大的相对增益和最佳性能
分子碎片化大小的影响
1) 当基序分割太粗且基序词汇太大时,生成的基序树具有较少的节点。GNN更难捕捉基序的结构信息。此外,生成的基序具有较低的出现频率,这阻止了GNN学习可推广到下游任务的基序的一般语义信息。
2) 当基序分割太精细时,许多生成的基序是单个原子或键,这抑制了GNN通过基序生成任务学习更高层次的语义信息。
总结
亮点
- 本文为提出了基于官能团的图自监督学习MGSSL:首先使用BRICS和两个附加规则分割分子图,并推导出有意义的官能团词典;其次,设计了一个官能团生成预训练框架,并考虑了BFS和DFS两种顺序,在每一步中,需要预先训练的GNN进行拓扑和模体标签预测;此外,同时在节点级和官能团级进行预训练。
不足
- 代码的多次迭代效率较低
- BFS和DFS的生成树可能每次会有不同,对结果是否有影响未可知
相关知识链接
下载
源代码资源
论文资源
参考文献
[1] Zhang Z , Liu Q , Wang H , et al. Motif-based Graph Self-Supervised Learning for Molecular Property Prediction[J]. 2021.](https://arxiv.org/abs/2110.00987)
[2] Petar Velickovic, William Fedus, William L Hamilton, Pietro Liò, Yoshua Bengio, and R Devon
Hjelm. Deep graph infomax. In ICLR, 2019
[3] Weihua Hu*, Bowen Liu*, Joseph Gomes, Marinka Zitnik, Percy Liang, Vijay Pande, and Jure
Leskovec. Strategies for pre-training graph neural networks. In ICLR, 2020.
[4] Jiezhong Qiu, Qibin Chen, Yuxiao Dong, Jing Zhang, Hongxia Yang, Ming Ding, Kuansan
Wang, and Jie Tang. Gcc: Graph contrastive coding for graph neural network pre-training. In
SIGKDD, pages 1150–1160, 2020.
[5] Yu Rong, Yatao Bian, Tingyang Xu, Weiyang Xie, Ying Wei, Wenbing Huang, and Junzhou
Huang. Self-supervised graph transformer on large-scale molecular data. NeurIPS, 33, 2020.
[6] Ziniu Hu, Yuxiao Dong, Kuansan Wang, Kai-Wei Chang, and Yizhou Sun. Gpt-gnn: Generative
pre-training of graph neural networks. In SIGKDD, pages 1857–1867, 2020.
BibTex
@article{2021Motif,
title={Motif-based Graph Self-Supervised Learning for Molecular Property Prediction},
author={ Zhang, Z. and Liu, Q. and Wang, H. and Lu, C. and Lee, C. K. },
year={2021},
}