2022 ICML | LIMO: Latent Inceptionism for Targeted Molecule Generation
Paper: https://arxiv.org/abs/2206.09010
Code: https://github.com/Rose-STL-Lab/LIMO
LIMO: 一种快速生成靶向分子的新方法
在药物发现中,生成与靶蛋白高度结合的类药物分子仍然是一个困难和资源密集型的任务。现有的方法主要采用强化学习、马尔可夫采样或由高斯过程指导的深层生成模型,当生成具有高结合亲和力的分子时,通过计算昂贵的基于物理的方法计算,这可能会非常缓慢。因此,作者提出了提出了LIMO,显著地加速了分子的生成。LIMO采用变分自编码器生成的潜在空间和两个神经网络按顺序预测的性质,使更快的基于梯度的分子性质反向优化。综合实验表明,LIMO在基准任务上表现出竞争性,在生成具有高结合力的类药化合物的新任务上明显优于当前最先进的技术,并对两个蛋白质目标的结合力达到纳摩尔范围。作者利用更精确的基于分子动力学的绝对结合自由能计算,展示了生成的分子基于对接的结果,并表明模型生成的一个类药物化合物对人类雌激素受体的预测K D值(结合亲和力的度量值)远超过了早期的典型候选药物和大多数FDA批准的药物对其各自目标的亲和力。
LIMO构建过程
- 建立在各种自动编码器(VAE)框架的基础上,结合了一种新颖的属性预测网络架构;
- 一个潜在的空间上采用了一种类似inceptionism技术的反向优化技术,以产生具有理想特性的类药分子。
- 比现有的基于强化学习的方法(快6-8倍)和基于采样的方法(快12倍)要快得多,同时在生成具有所需特性的分子方面保持或超过基线性能。
- 允许生成具有所需特性的分子,同时保持分子的子结构固定,这是引导性优化的一项重要任务。
- 在生成与目标蛋白具有高结合亲和力的类药分子的新任务中,明显地超过了当前最先进的方法。
方法
模型的框架如图1所示:利用VAE来学习类药物化学空间的潜在特征表示。然而,与以前的工作相反的是,模型依次使用两个神经网络(一个解码器和一个性质预测器)对空间的分子特性进行反向优化。
模型使用一个decoder网络对分子表征进行解码,以改善结果值,从而优化分子特性,同时允许使用有效的基于梯度的优化器,保持中间结果的可微调性。模型使用自我参照的嵌入式字符串(SELFIES)来确保优化过程中的化学有效性。基于以上方法,LIMO能够实现与强化学习方法相同的性能,同时速度上也提高几个数量级。在基于结构的结合亲和力优化这一非常有用的任务上,LIMO明显地超过了最先进的(包括RL)方法,同时速度也快得多。
实验
数据集
对于所有的优化任务,使用基准ZINC250k数据集,其中包含了大概25万个可购买的类药物分子。使用AutoDock- GPU来计算结合亲和力,并使用RDKit来计算其他的分子属性。对于随机生成任务,在基于ZINC的大约200万分子的MOSES数据集上进行训练。
评价指标
利用QED和最大化penalized logP(p-logP)、针对性的logP、最大化相似性约束p-logP、子结构约束的logP极端化,以及单一和多目标结合亲和力最大化进行综合评估。所有这些任务都是药物发现中的典型挑战,特别是围绕子结构的优化和结合亲和力的最大化。在论文的附录中可以找到每个任务的详细描述和部分结果。
基线模型
LIMO与下列最先进的分子设计模型进行比较:JT-VAE、GCPN、MolDQN、MARS和GraphDF。
蛋白质靶标
对于结合亲和力优化的任务,选取两个人类蛋白作为结合物。分别是:人类雌激素受体(ESR1)和人类过氧化物酶体乙酰CoA乙酰转移酶1(ACAA1)。
实验结果
QED和p-logP最大化
表1显示了LIMO和基线模型在生成具有高惩罚性logP和QED分数的分子方面的结果。LIMO在深度生成和基于RL的模型(即除MARS外的所有方法)中取得了有竞争力的结果,同时花费的时间明显更少(p-logP是一个 "破碎 "的指标,几乎完全取决于分子长度。如果没有长度限制),MARS可以很容易地生成具有高p-logP的长碳链。
目标性的logP
表2展示了LIMO生成logP目标范围为-2.5<logP<-2.0的分子的能力。LIMO在目标logP范围内生成的分子中实现了最高的多样性,虽然它的成功率低于其他方法,但它在目标范围内每秒生成33个分子。这与其他模型的总体生成速度相似。
最大化相似性约束 p-logP
表3总结了相似性约束的p-logP最大化任务的结果。对于两个最低的相似性约束(δ=0.0,0.2),LIMO实现了最高的惩罚性logP改进,而在更高的δ值下,它的改进与其他方法没有区别。这表明LIMO对于无约束优化的能力,以及在更多的约束环境下达到有竞争力的性能。
子结构约束的logP极端化
图2显示了子结构约束的logP极端化任务的结果。作者从ZINC250k中选择了两个分子作为起始分子,并将这些起始分子的子结构定义为固定的,然后使用LIMO进行logP的最大化和最小化,如图所示,在这两种情况下,可以成功地增加或减少logP,同时保持子结构不变。
最大化结合亲和力
对于两个蛋白质目标,选取了每种方法产生的10k个总分子中的前3个最高亲和力(即用AutoDockGPU估计的最低分离常数,KD,)。如表4所示,LIMO生成的化合物具有更高的计算结合亲和力,而所需时间远远少于先前的先进方法。选择GCPN、MolDQN、GraphDF和MARS作为基线比较,因为它们在其他单目标优化任务中表现出色。
结论
论文提出了一个用于新分子设计的生成性建模框架LIMO。LIMO利用VAE潜在空间和两个神经网络依次对分子特性进行反向优化,允许使用高效的梯度优化器,在明显较短的时间内获得具有竞争力的基准任务结果。相对于同类方法,在单位时间内产生六倍的分子的能力(表4)增加了产生高质量候选药物的几率,这些候选药物可以在连续的几轮细化中存活下来,从而从整体上加速了药物开发,特别是考虑到LIMO的高度多样性(表2,6)。在生成具有高结合亲和力的分子的任务上,LIMO优于所有先进的基线任务。LIMO有望在药物发现方面有多种应用。快速生成高亲和力化合物的能力可以加速目标验证,其生物探针可用于确认目标的拟议生物效应。