JCIM2022 | MGCVAE:基于graph CVAE的分子生成与多目标优化

代码: https://github.com/mhlee216/MGCVAE

CVAE基于graph(基于SMILES模型生成SMILES不稳定,容易导致结构错误)

优化目标:辛醇水分配系数(ClogP)、摩尔折射率(CMR)

1、分子graph

分子图使用节点来表示原子,用边来表示键,并由注释矩阵和调整矩阵来表示分子结构。注释矩阵(𝑁×𝑋,𝑁为原子的数量,𝑋为原子类型的数量)中的每一行为原子的one-hot编码,邻接矩阵(𝑁×𝑁)则用于描述每一行和每一列对应的连接键。分子的初始图矩阵由注释矩阵和邻接矩阵重构而成,以生成完整的分子图,初始图矩阵的尺寸是{S, [1+A+(S·B)]},其中S表示最大的原子数量(最大的图尺寸),A为原子类型的数量,B为键类型的数量。

2、模型

MGVAE (没有condition)和 MGCVAE 的目标函数如下:

主要区别在于目标函数中的条件向量 𝑐 。在该研究中,要控制的分子特性对应于条件向量c(one-hot向量),解码器根据这些给定的条件向量,与潜在向量一起生成具有所需属性的分子。

将分子图重构为初始图矩阵,并将条件向量一同输入编码器,编码器将其转换为潜在空间的向量。然后,潜在向量与条件向量经过解码器生成了初始图矩阵,然后在潜在空间随机采样,经过解码器,随机采样得到新的优化分子。

3、数据集

从 ZINC 数据库中选择了 1363452 个具有 16 个或更少原子(节点)的分子,如图 3所示。这些分子由 12 种类型的原子(B、C、N、O、F、Si、P、S、Cl、Br、Sn 和 I)和4 种类型的键(单键、双键、三键和芳香键)组成。通过RDKit的计算方法计算后,这些分子的ClogP 介于 -6  和 5 之间,CMR在 5 到 95 之间(与分子的大小和分子量有关)。除此之外,该研究还从 ZINC 数据库中收集了适合图形生成的分子(例如,没有'+'、'-'和'.'的 SMILES)。

根据 Lipinski's rule of five(RO5),本文将两个优化目标确认为生成ClogP 在 0-3 之间、CMR 在 20-60 之间的分子,因为这既是作为药物的有意义的范围,也是通过给定数据集的分布可以生成模型的范围。

4、结果与讨论

MGVAE 和 MGCVAE模型用相似的数据集进行训练,MGVAE 在没有任何约束条件的情况下生成了10000个分子,而 MGCVAE在第一个条件(ClogP, C1={0, 1, 2, 3})和第二个条件(CMR, C2={20, 30, 40, 50, 60})下,每种组合均生成10000个、共生成了200000个分子。

以“MGCVAE生成的分子中,满足两个目标特性的分子的比例”为基准对模型的性能进行评估。同时也对未应用任何条件的 MGVAE 生成的分子进行计数,以确定它们是否满足每个条件的范围。

比较生成的分子和数据集中的分子的化学空间是一种直观地比较两者相似程度的方法。该研究利用了分子指纹和降维算法(PCA),对两类分子的相似性进行了可视化分析,如图所示。表明两种生成模型生成的分子都与现有的数据集相似,尤其是 MGCVAE,可以在特定位置生成更多的分子。

为了准确评估 MGVAE 和MGCVAE的性能,测量:有效性(有效分子的数量与所有生成的分子之比)、新颖性(不在数据集中的有效样本与有效样本总数之比)和独特性(独特样本数与有效样本数之比,它衡量抽样过程中的多样性程度

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值