Molecular Contrastive Learning of Representations via Graph Neural Networks
基本信息
博客创建者
秦明
博客贡献人
秦明:主要内容介绍
作者
Yuyang Wang, Jianren Wang , Zhonglin Cao, and Amir Barati Farimani
摘要
分子机器学习(ML)有望实现高效的分子性质预测和药物发现。然而,标记分子数据的获取可能既昂贵又耗时。由于标记数据有限,监督学习ML模型要推广到巨大的化学空间是一个巨大的挑战。在这项工作中,我们提出了MolCLR:通过图神经网络(GNNs)进行表征的分子对比学习,这是一种利用大量未标记数据(~10M个独特分子)的自监督学习框架。在MolCLR预训练中,我们构建分子图并开发GNN编码器来学习可微表示。提出了三种分子图增广:原子掩蔽、键缺失和子图去除。对比估计器最大化来自同一分子的扩增的一致性,同时最小化不同分子的一致性。实验表明,我们的对比学习框架显著提高了GNN在各种分子性质基准上的性能,包括分类和回归任务。得益于在大型未标记数据库上的预训练,MolCLR在微调后甚至在几个具有挑战性的基准测试上达到了最先进的水平。此外,进一步的研究表明,MolCLR学会将分子嵌入能够区分化学合理分子相似性的表征中
方法
方法描述
本文提出的MolCLR通过图神经网络对表征进行分子对比学习。MolCLR是一个自监督的学习框架,它是在具有1千万个独特分子的大型无标记分子数据集上训练出来的。通过对比损失,MolCLR通过对比积极的分子图对和消极的分子图对来学习表示。引入了三种分子图的增强策略:原子屏蔽、键删除和子图删除。
MolCLR框架概述
(a) MolCLR预训练:将小批量N个分子数据中的SMILES
S
n
S_{n}
Sn转换为分子图
G
n
G_{n}
Gn。对每个图应用两个随机分子图数据增广操作,得到两个相关的掩蔽图:
G
2
N
G_{2N}
G2N,
G
2
N
−
1
G_{2N-1}
G2N−1一个基本特征编码器建立在图形卷积和读出操作的基础上,提取分子特征
h
2
N
h_{2N}
h2N,
h
2
N
−
1
h_{2N-1}
h2N−1利用对比损失来最大化正样本对之间的相似性。
(b)分子图增强策略:原子掩蔽、键删除、子图删除。
(c)整个MolCLR框架:GNN首先通过MolCLR进行预训练,以学习代表性特征。下游分子性质预测的微调共享GNN编码器的预训练参数,并随机初始化MLP头。然后,它遵循监督学习来训练模型。
数据增广
-
原子屏蔽(Atom Masking)分子图中的原子以给定的比例被随机屏蔽。当一个原子被遮蔽时,它的原子特征被一个掩码标记 取代,该标记与图1 b中红框所示的分子图中的任何原子特征相区别。通过屏蔽,模型被迫学习内在的化学信息(比如由某些共价连接的原子的可能类型。
-
键删除(Bond Deletion)如图1(b)中的黄色方框所示, "键删除"以一定比例随机删除原子之间的化学键。与原子屏蔽方法中用掩码标记替代原始特征的原子掩码不同,键删除是一种更严格的增强,因为它从分子图中完全删除了边缘。原子之间化学键的形成和断裂决定了化学反应中分子的属性。键的删除模拟了化学键的断裂,促使模型学习一个分子在各种反应中的关联性。
-
子图删除(Subgraph Removal)子图删除可以被认为是原子屏蔽和键删除的结合。子图的去除从一个随机挑选的原点开始。去除过程通过屏蔽原原子的邻域,然后是邻域的邻域,直到被屏蔽的原子数量达到原子总数的一定比例。然后,被屏蔽的原子之间的化学键被删除,这样被屏蔽的原子和被删除的化学键就形成了原分子图的子图。如图1(b)中的蓝色方框所示,被移除的子图包括被遮蔽原子之间的所有化学键。通过匹配被移除的不同子结构的分子图,该模型学会了在剩余的子图中找到显著特征,这在很大程度上决定了分子的特性。
对比损失
实验
实验设置
数据集
为了MolCLR构建了一个大规模数据集,其中包含来自ZINC和ChEMBL数据集的1100万个分子。
- ZINC
- ChEMBL
对比方法
对比的基线包括
-
GCN,GIN
-
Mol2Vec 分子嵌入
-
N-GRAM 是一种基于统计语言模型的算法
-
SMILES-BERT 基于bert的smiles嵌入模型(预训练)
-
GROVER 基于图transformer的预训练模型 (预训练)
实验结果及分析
评估指标
-
分子性质预测
分类数据集(ROC-AUC)
-
回归数据集(RMSE)
消融实验
- 对比不同数据增广方式对分类实验的影响
相关知识链接
下载
源代码论文MolCLR
总结
亮点
- 从CV领域得到启发,将数据增广应用到药物分子领域,通过对比学习的方法进行自监督学习,
[不足]
子图结构的删除可能会删掉药物分子中代表其化学意义的部分,使得增广数据与原数据差别较大,如果将这样差别较大的数据增广看作正样本对可能会学习到错误的信息,图像结构的增广是建立在不改变数据原义的基础上进行旋转,遮盖,换色等方法,由于药物分子的图数据较小,节点较少,很容易在增广过程中改变数据原义。
[启发]
- 可以将数据增广的方法应用到自预训练
- 对比学习寻找正负样本对,结合领域知识可以有更多定义正负样本的方法
BibTex
@article{wang2022molecular,
title={Molecular contrastive learning of representations via graph neural networks},
author={Wang, Yuyang and Wang, Jianren and Cao, Zhonglin and Barati Farimani, Amir},
journal={Nature Machine Intelligence},
volume={4},
number={3},
pages={279--287},
year={2022},
publisher={Nature Publishing Group UK London}
}