2020 Front. Pharmacol | Molecular Sets (MOSES): A Benchmarking Platform for Molecular Generation Mod


本文由香港英矽科医药有限公司、哈佛大学、瑞士阿斯利康、俄罗斯国立研究大学、多伦多大学、多伦多人工智能矢量研究所等发表在Front. Pharmacol., 18 December 2020

Paper:https://arxiv.org/abs/1811.12823
Code: https://github.com/molecularsets/moses

2020 Front. Pharmacol | Molecular Sets (MOSES): A Benchmarking Platform for Molecular Generation Models

摘要

生成模型正在成为探索分子空间的首选工具。这些模型在大型训练数据集上学习,并产生具有相似特性的新型分子结构。生成的结构可用于虚拟筛选或在下游任务中训练半监督预测模型。虽然有很多生成模型,但尚不清楚如何对它们进行比较和排名。在这项工作中,引入了一个名为 Molecular Sets (MOSES) 的基准测试平台来标准化分子生成模型的训练和比较。MOSES 提供训练和测试数据集,以及一组指标来评估生成结构的质量和多样性。并比较了几种分子生成模型,并建议将结果作为参考点,以进一步推动生成化学研究。

介绍

在这项工作中,分子生成提供了一个基准套件——分子集 (MOSES):标准化数据集、数据预处理实用程序、评估指标和分子生成模型。能够为当前和未来的生成模型提供清晰统一的测试平台。如下图1所示:

图1:分子集合(MOSES)管道。开源库提供了数据集、基线模型和评估指标

分布学习

分布学习模型。给定一组训练样本 X t r = { x 1 t r , x 2 t r , . . . , x N t r } X_{tr}=\{x_1^{tr}, x_2^{tr}, ...,x_N^{tr}\} Xtr={x1tr,x2tr,...,xNtr}来自一个未知的分布 p ( x ) p(x) p(x),分布学习模型近似 p ( x ) p(x) p(x)与一些分布 q ( x ) q(x) q(x)

分布学习模型的质量是 p ( x ) p(x) p(x) q ( x ) q(x) q(x)之间的偏差度量。该模型可以隐式或显式定义一个概率质量函数 q ( x ) q(x) q(x)。比如隐马尔可夫模型、N元语言模型或规范化流等显式模型可以解析计算 q ( x ) q(x) q(x)并从中采样。隐式模型,如变分自编码器、对抗性自编码器或生成式对抗网络可以从 q ( x ) q(x) q(x)中采样,但不能计算概率质量函数的确切值。为了比较模型,本文评价指标仅依赖于q(x)的样本。

分子表示


图2. 对香兰素分子的不同表示

  • 字符串表示:将分子结构表示为字符串。SMILES 算法以深度优先顺序遍历分子图的生成树,并存储原子和边标记。
  • DeepSMILES:作为 SMILES 的扩展被引入,通过改变分支和闭环的语法来减少无效序列。
  • 分子图: 在分子图中,每个节点对应一个原子,每条边对应一个键。这样的图可以显式或隐式指定氢。

指标

  • 有效 (Valid) 和唯一 (Unique@k): 生成SMILES 字符串的有效性和唯一性。使用 RDKit 的分子结构解析器来定义有效性,该解析器检查原子的化合价和芳环中键的一致性。
  • 新颖性:生成的分子中不存在于训练集中的部分。低新颖性表明过度拟合。
  • 过滤器: 虽然生成的分子通常在化学上是有效的,但它们可能包含不需要的片段:在构建训练数据集时,我们删除了带有此类片段的分子,并期望模型避免产生它们。
  • 片段相似度 (Frag): 表示cf(A)子结构f在集合A的分子中出现的次数,以及一组出现在G或R中的片段为f,度量被定义为余弦相似度:
  • 支架相似度 (Scaff):用该算法的 RDKit 实现,该算法另外将连接到环上的羰基视为支架的一部分。表示cs(A)从集合A中分子中出现支架s的次数,以及一组出现在G或R中的片段的次数为s,度量被定义为余弦相似度:
  • 与最近邻相似度 (SNN): 一个分子 m G m_G mG的指纹均值Tanimoto相似度 T ( m G , m R ) T(m_G,m_R) T(mG,mR)(也称为Jaccard指数)与参考数据集 R R R中最近邻分子 m R m_R mR之间的均值Tanimoto相似度 T ( m G , m R ) T(m_G,m_R) T(mG,mR)
  • 内部多样性 (IntDivp ) :该度量的较高值对应于生成集中较高的多样性。该指标的限制为 [0,1]。
  • Fréchet ChemNet 距离 (FCD) :使用深度神经网络 ChemNet 的倒数第二层的激活来计算的,该网络经过训练可预测药物的生物活性。μG,μR是平均向量和ΣG,ΣR分别是来自集合G和R的分子的激活的全协方差矩阵。
  • 属性分布
    - 分子量 (MW): 分子中原子量的总和。
    - LogP:辛醇-水分配系数
    - 合成可及性分数 (SA):对合成给定分子的难易程度 (10) 或难易程度 (1) 的启发式估计。
    - 药物相似性的定量估计 (QED): 一个 [0,1] 值,用于估计分子成为药物可行候选者的可能性。

数据集

训练和测试的建议数据集基于 ZINC Clean Leads 集合,其中包含 4、591、276 个分子量在 250 到 350 Da 范围内的分子,可旋转键不大于 7,并且 XlogP不大于 3.5。

图3:来自MOSES数据集的分子示例

基线

  • 字符级递归神经网络 (CharRNN)
  • 变分自动编码器 (VAE)
  • 对抗性自动编码器 (AAE)
  • Junction Tree VAE (JTN-VAE)
  • 基于潜在向量的生成对抗网络 (LatentGAN)

结果

表 1。基线模型的性能指标:有效分子的比例、独特分子的比例和分子。

隐马尔可夫模型和 NGram 模型无法生成有效分子,因为它们的上下文有限。组合生成器和 JTN-VAE 具有内置的有效性约束,因此它们的有效性是 100%。

表 2。基线模型的性能指标:通过过滤器的分子分数(MCF、PAINS、环大小、电荷、原子类型)、新颖性和内部多样性。

组合生成器比训练数据集具有更高的多样性,这可能有利于发现新的化学结构。基于自动编码器的模型的新颖性较低,表明这些模型过拟合训练集。

表 3。基线模型的性能指标:Fréchet ChemNet 距离 (FCD) 和最近邻相似度 (SNN)。

所有基于神经网络的模型都显示出低 FCD,表明模型成功地捕获了数据集的统计数据。

表 4. 片段相似度(Frag),脚手架相似度(Scaff)

结构分布的相似性——片段和支架。从训练集到脚手架测试集 (TestSF) 的脚手架相似度在设计上为零。请注意,CharRNN 成功发现了许多新的支架(11%),这表明该模型具有很好的泛化性。


图 4. MOSES 数据集和生成的分子集的化学性质分布。括号中——Wasserstein-1 到 MOSES 测试集的距离。参数:分子量、辛醇-水分配系数 (logP)、药物相似性的定量估计 (QED) 和合成可及性评分 (SA)。

四种分子特性的分布:分子量 (MW)辛醇-水分配系数 (logP)药物相似性的定量估计 (QED)合成可及性评分 (SA )。较大的分子施加了更多的效度约束。组合生成器的分子量变化更大,产生的分子比训练集中的分子更大和更小。

参考

https://www.frontiersin.org/articles/10.3389/fphar.2020.565644/full#B55

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

发呆的比目鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值