今天给大家介绍卡耐基梅隆大学Amir Barati Farimani团队近期发表在arxiv上的关于如何利用对比学习和图神经网络进行分子表示,并服务于下游任务的研究。分子机器学习在分子性质预测和药物发现方面具有广阔的应用前景。然而,由于标记数据有限和分子的化学空间十分广阔,有监督学习模型泛化能力较差。这大大限制了机器学习方法在分子设计和发现中的应用。为解决上述问题,作者提出了一个用于大型无标记分子库的自监督学习框架:MolCLR,该模型通过图神经网络(GNNs)结合对比学习学习分子表示。实验表明,MolCLR学习到的分子表征可以迁移到多个下游分子性质预测任务中,在许多具有挑战性的数据集上实现了最先进的性能。该文还证明了文章中提出的分子图增强算法在有监督的分子分类任务中也十分有效。
MolCLR模型框架
MolCLR通过将正增广分子图对与负增广分子图对进行对比来学习表征。如图1所示,模型由四个部分组成:数据处理和增强、基于GNN的特征抽取、非线性投影和NT-Xent对比损失。一批大小为(N)的SMLIE数据,构建相应的分子图
,其中每个节点代表一个原子,每个边代表原子间的化学键。使用分子图增强策略,将
转换成两个不同但相关的分子图:
作者还提出了三种分子图增强策略分别为原子遮盖、键删除和子图删除,以在分子图的数据增强中随机应用,如图2所示。由同一分子数据增强生成的分子图表示为正对,而由不同分子数据增强生成的分子图表示为负对。特征提取函数f(·)将数据增强生成的分子图映射为的表示形式。各种不同的GNNs都可以作为f(·)使用。MolCLR使用GIN进行聚合操作和一个平均池化来读取分子表示。将非线性投影g(·)模型化为具有一个隐层的MLP,将
表示分别映射为潜在向量
。对比损失NT-Xent应用于2N个特征向量z。利用余弦相似性计算
的相似度。
图1 通过图神经网络表示的分子对比学习
N个分子的SMLIES表示sn转换成分子图Gn。对每个图应用两个随机分子图增强方法,得到两个相关遮盖图:G̃2n−1和G̃2n。基于图卷积的读出操作的特征编码器提取表示h2n−1,利用对比损失来最大化MLP投影头的潜在向量z2n−1、z2n之间的一致性。
图2 三种分子图增强策略。(a)原子遮盖,随机遮挡原子节点的特征。(b)键删除,随机地删除两个原子之间的键。(c)子图删除,从原始分子图中随机删除一个诱导子图。
总结
作者提出了基于GNNs的分子表征对比学习框架MolCLR和三种分子图增强策略:原子遮盖、键删除和子图删除。实验表明,与以监督学习方式训练的模型相比,MolCLR预训练的GNN模型在各种分子任务上都有不错的效果,并且具有更好的泛化能力。
参考资料
Wang Y, Wang J, Cao Z, et al. MolCLR: Molecular Contrastive Learning of Representations via Graph Neural Networks[J]. arXiv preprint arXiv:2102.10056, 2021.