RELATION: A Deep Generative Model for Structure-Based De Novo Drug Design（阅读笔记））

RELATION: A Deep Generative Model for Structure-Based De Novo Drug Design（一）
原文链接：
https://pubs.acs.org/doi/10.1021/acs.jmedchem.2c00732?fig=fig1&ref=pdf
在这里插入图片描述
主要是想以记录的方式来逼迫自己好好读论文，耐心读论文，所以文章解读在一定的程度上都是浅薄的，可能也是带有一定的错误观点，还请大家见谅，在评论区指点（比个大大的爱心）
主要的内容会标注原文，以机翻为主，自己会进行适量修改和补充。

ABSTRACT
在这里插入图片描述
基于深度学习（DL）的De Novo(从头分子)设计近年来获得了相当大的关注。许多基于dl的生成模型已经成功开发用于设计新分子，但大多数以配体为中心，靶标结合袋的三维几何结构在分子生成中的作用尚未得到很好的利用。在这里，我们提出了一种新的基于三维的生成模型，称为RELATION。在RELATION模型中，BiTL算法被专门设计用于提取和转移蛋白质−配体复合物的所需几何特征到一个潜在的空间进行生成。应用药效团条件反射和基于对接的贝叶斯采样，有效地导航广阔的化学空间，设计具有所需几何特性和药效团特征的分子。作为概念证明，该关系模型被用于设计两个靶点AKT1和CDK2设计抑制剂。计算结果表明**，该关系模型能够有效地生成具有良好结合亲和力和药效团特征的新分子。**

INTRODUCTION
药物发现的一个主要目标是识别具有所需药理特性的新化学实体。在药物发现的早期噬菌体中发现的有前途的候选药物在后期的临床试验中有失败的高风险（∼95%），导致资源的浪费。因此，迫切需要用足够的候选药物来补充药物发现的管道。然而，这是一项非常重要的任务，因为药物化学家必须在一个巨大的化学空间中寻找这些人口稀少的候选者。据估计，目前在化学空间中大约有10的23次方个−10的60次方可合成分子，可接近化学空间的大小预计将在未来几年迅速扩大。这些挑战使得药物发现过程成本昂贵且耗时。
De Novo(从头分子)设计旨在通过利用先进的计算技术来生成具有新结构的潜在候选药物，从而加速药物开发管道和降低成本。一般来说，传统的新生药物设计方法可以分为基于配体和基于结构两类。经典的基于配体的方法，如TOPAS、SYNOPSIS,、和DOGS，需要一组实验验证的活性化合物作为起点，活性化合物的共同特征可用于指导新候选药物的设计。另一方面，基于结构的方法，如LUDI，PROLIGAND，SPROUT，CONCERTS，和scaffold hopping，通过逐步添加、删除、插入或替换嵌入在目标结合口袋中的化学支架的片段来创建新的小分子。例如，片段连接方法通过将片段与连接体连接来产生分子，片段生长方法将种子片段作为锚来生长新的配体。然而，经典的De Novo(从头分子)设计方法在分子世代过程中必然存在新颖性和理想特性之间的权衡。换句话说，与现有的活性分子相比，某些方法生成的分子可能具有新的支架，但也具有较差的药理特性或/和合成能力较低，反之亦然。
最近，深度学习（DL）已经显示出了加速新候选药物发现的潜在能力。一些先进的基于DL的生成算法被用于新创药物设计，如递归神经网络（RNN），编码器−解码器（EncDec），生成对抗网络（GAN），和强化学习（RL）。DL在新药物设计中的应用已被评为麻省理工学院技术评论2020年十大突破性技术之一。
值得注意的是，大多数基于dl的生成算法都是以配体为中心的。因此，分子被表示为一维简化的分子输入规范（SMILES）字符串或二维分子图。一维/二维表示的一个明显缺点是，三维分子几何形状对配体结合的关键影响不能被生成模型捕获。换句话说，这些方法可能不足以满足基于结构的从头药物设计中的特定目标任务。
已经在将配体或/和蛋白质结合袋的三维分子几何结构整合到基于dl的生成结构中付出了一些努力。例如，Skalic等人开发了LigDream和LiGANN，其中使用变分自动编码器（VAE）生成配体形状，并将这些形状解码成SMILEs 字符串。Xu等人提出了一种生成模型，通过将蛋白质结合袋的基质整合到条件RNN（cRNN）模型中，以控制药物样分子的生成。Li等人提出了结合三维分子生成网络和基于Monte−Carlo树搜索（MCTS）的优化模块设计SARS-CoV-2主要蛋白酶抑制剂。这些模型是通过将配体或/和蛋白质的三维特征整合到基于dl的生成结构中而开发出来的。然而，De Novo(从头分子)设计中的关键点，如配体结合模式和生成的分子的药效团特征，在这些算法中并没有同时得到解决。
在本研究中，我们提出了RELATION（感受器-配体相互作用），一种基于enc-dec的生成模型，用于De Novo(从头分子)药物设计。与现有的DL方法不同，我们的算法以具有原子理化学性质的配体−受体复合物的三维网格构象为输入，因此，它在为给定的靶点生成具有良好药效团特征和结合模式的分子方面效率更高。采用DSN（结构域分离网络）进行双向迁移学习（TL），以促进配体和配体−蛋白复合物之间的信息交换。为了不断提高De Novo(从头分子)设计的有效性，分别采用条件生成和药团和基于文献评分的抽样约束。最后，利用该关系模型设计了针对AKT1（蛋白激酶B alpha）和CDK2（周期蛋白依赖性激酶2）的潜在抑制剂。

RESULTS AND DISCUSSION

Quality and Properties of the Generated Molecules.

表1总结了不同的基于dl的分子生成模型的比较。可以清楚地观察到，我们的RELATION模型的性能优于其他现有的三维生成模型的有效性，唯一性，新奇，和所生成的分子的多样性，这表明关系模型有很大的优势在避免无效的抽样和重复分子的化学空间。
在这里插入图片描述

通过双向TL的引入，可以发现具有双向TL的 RELATION（AAE）和 RELATION（VAE）模型比其他模型具有更高的效度、唯一性和内部多样性得分。FCD（Frechet ChemNet距离）值可以用来评估生成的分子与参考数据集之间的化学和生物特性的相似性。显然，TL模型产生的FCD值相对低于非TL模型，这表明当使用TL技术时，生成的分子的化学和生物特性更接近于现有的抑制剂。
不同模型生成的分子对AKT1和CDK2的分子的化学分布如图1所示。从图1中的非tl列可以看出，与现有的抑制剂相比，由VAE和对抗性自编码器（AAE）生成的分子分布在一个完全不同的空间中。当使用单向TL算法对模型进行再训练时，生成的分子分布与现有抑制剂之间的重叠明显增加。如图1中双向TL列所示，分子生成的关系（VAE）和关系（AAE）几乎完全重叠与现有的抑制剂，表明生成的分子和现有的抑制剂通过使用双向TL覆盖类似的化学空间VAE和AAE架构。这些结果也与表1中所示的数据（FCD值）相一致。因此，通过应用双向TL算法和几何构象，我们的关系模型可以捕获训练数据的潜在特征，并对一个接近感兴趣的化学结构的化学空间进行采样。

在这里插入图片描述
图1.由不同模型和现有抑制剂生成的10,000个有效分子的T-SNE图。蓝色点表示AKT1和CDK2抑制剂，绿色点表示不同模型生成的分子。
不同模型生成的分子对AKT1和CDK2的分子的化学分布如图1所示。从图1中的non-TL列可以看出，与现有的抑制剂相比，由VAE和对抗性自编码器（AAE）生成的分子分布在一个完全不同的空间中。当使用单向TL算法对模型进行再训练时，生成的分子分布与现有抑制剂之间的重叠明显增加。如图1中双向TL列所示，分子生成的关系（VAE）和关系（AAE）几乎完全重叠与现有的抑制剂，表明生成的分子和现有的抑制剂通过使用双向TL覆盖类似的化学空间VAE和AAE架构。这些结果也与表1中所示的数据（FCD值）相一致。因此，通过应用双向TL算法和几何构象，我们的关系模型可以捕获训练数据的潜在特征，并对一个接近感兴趣的化学结构的化学空间进行采样。
为了验证上述关系模型的满意性能是否与公式2中引入的在这里插入图片描述
相一致，我们对这两个项目进行了消融实验。在表S1中可以发现，单独引入3diff会导致产生大量的无效分子，而单独引入3sim会导致产生的分子和抑制剂之间的物理化学性质有很大的差异。因此，将这两个项引入损失函数对于生成所需的分子是非常必要的。

Stability of the Results with Respect to Input Orientations
这项任务的关键问题之一是创建一个对源数据集和目标数据集的方向不敏感的生成模型。当一个内部数据点从不同的角度显示时，输入数据点的网格格式总是看起来有所不同，但它包含关于底层真实分子的相同信息或配体−蛋白复合物。离子（在生成分子的质量和性质的部分中提到）被用来训练RELATION（AAE）模型。如果关系模型对输入数据的方向不敏感，那么由这10个模型生成的分子集的性质应该几乎相同。生成的10个分子集的属性如图S1所示，可以发现生成的分子集的质量并没有表现出明显的变化(有效性、唯一性、新颖性、int Div.和FCD)，并且在对于这10个集合中的每一对（这些分子集合的物理化学性质都小于10−1）几乎是毫无区别的。
Comparison of RELATION and Pharmacophore-Based RELATION
我们进一步引入了条件VAE（CVAE）中的药效团特征来进行关系训练，使生成过程更适合于特定目标的任务。需要注意的是，选择基于AAE的关系作为基线，因为它在FCD度量方面的表现优于关系（VAE）。下面提到的关系是指基于AAE的关系。药效团得分的分布。SFCR)所生成的分子如图2所示。对于AKT1和CDK2，RELATIONpha（基于药效团的关系模型）生成的分子比原始关系模型生成的分子具有更高的药效团得分。这说明通过引入药效团特征的关系，生成的分子可以增强与预设的药效团模型的匹配。

表2总结了关系和关系的性能。根据FCD度量，我们可以发现，由于在关系模型中引入了药效团特征，RELATIONpha生成的分子的理化性质与现有的抑制剂更相似。然而，观察到由关系所产生的分子的有效性、新颖性和多样性降低并不令人惊讶。特别是，效度从∼80下降到∼30%，这表明对于RELATION来说，在潜在空间的采样是非常低效的。这种无效对于受属性约束的CVAE体系结构是不可避免的。总体的低成功率可能是由于药效团性质与潜在点之间的强相关性，而潜在点的离散性导致从潜在载体到分子的解码过程中无效分子率高。
Bayesian Optimization in RELATION
我们的关系模型有一个缺陷，不能产生很高比例的有效分子。为了提高RELATIONpha模型的采样效率，并在相当大的化学空间中生成一组具有良好对接构象的有效分子，需要采用更强大的采样框架。贝叶斯优化（BO）就是这样一个框架，它使用一个根据先前获得的数据训练的替代模型来指导化学空间中的采样。表2总结了从不同BO策略中取样的分子的指标。对接分数或定量结构−活动关系（QSAR）得分作为基于BO的关系采样过程中的黑盒函数。对比有无BO的结果（见表2）表明，两种BO采样方法解码的潜在点可以增加有效分子的数量，特别是对于RELATIONpha模型。采样分子的有效性从∼30增加到∼60%。事实上，BO采样的引入可以鼓励选择位于真实分子区域的SMILEs 串。BO方法等价于对潜在点的选择添加一个约束，即更倾向于生成具有理想的QSAR或对接分数的分子。因此，在采样过程中，可能不能选择得分最差的潜在空间“死区”中的无效分子来转换为SMILEs 串。
通过比较表2中的FCD值，我们可以观察到通过对接取样的分子具有与现有抑制剂具有相似的理化性质。然而，与原始关系相比，FCD值与BOqsar的关系没有显著降低。这一结果表明，QSAR分数高的采样分子可能不具有理想的物理化学性质。虽然我们在研究中建立的QSAR模型具有良好的预测性能，但对于基于机器学习的QSAR模型，假阳性仍然是不可避免的。因此，这些在BO过程中取样的“坏”分子也可能表现出良好的QSAR分数。
此外，可以观察到与BO采样相关的内部多样性指标下降（表2），这表明从BO过程中取样的分子可能比直接从原始关系中取样的分子有更多的重复支架和片段。具有相似结构的化合物通常具有相似的性质，所以它们更有可能在化学空间中聚集在一起。相应地，在BO过程中满足黑盒函数的极值点（对接分数或QSAR值）的分子也可能有很高的概率聚集在一起。在这种情况下，BO方法倾向于从聚类中取样具有有利分数的潜在点，从而产生许多具有相似支架和片段的分子。

如图2所示，通过引入两种BO过程，提高了生成的分子的药效团分数，其中BOdock的性能略优于BOqsar。与原始关系模型生成的分子对接分数相比，BOdock生成的分子对接分数显著提高，但BOqsar生成的分子的QSAR分数仅略有变化。我们还发现，由BOdock生成的分子表现出与现有抑制剂相似的相似的药效团分布和对接分数（图S2）。这些结果表明，BOdock生成的分子更有可能具有良好的药效团和对接特性，因此BOdock可能是靶向任务的更好选择。
此外，我们还观察到由BO采样的模型产生的分子的新颖性（NovelZINC）略有改善。也就是说，一些生成的分子与训练数据集中的一些结构非常相似。训练集的大小（潜在分子点X）可能是降低新奇性的关键因素。虽然锌数据集（从锌清洁铅数据库）用于我们的模型包含超过一百万非重复分子，独特的数量Bemis−Murcko支架49只有340216，这意味着许多高度相似的分子（∼75%）可能选择的代理模型的适应性。因此，使用这个高度重复的数据集进行训练，最终的BO样本也会选择与锌数据集中的分子相似甚至相同的潜在点进行解码。
以整个ZINC数据集为潜在分子点的BO过程采样是耗时的（∼70h生成10000个分子）。考虑到Bemis−Murcko支架只占锌数据集中结构的一小部分（25%），我们试图通过缩小采样潜在分子点，来提高采样过程的速度，提高生成分子的新颖性。

从Bemis−Murcko支架集中随机选择5、10和20%的潜在分子点，然后对模型进行再训练。使用整个Bemis−Murcko支架集（25%）和随机选择的ZINC数据集（15%）来确定40%的潜在分子点。根据新模型的性能如图3所示，可以观察到，当锌的大小潜在分子点的范围为5−20%，生成的分子的新奇略有减少，但当大小增加到40%，遭受急剧下降。因此，可以推断，在潜在空间中引入重复数据确实会使BO方法倾向于对这些重复数据进行采样，从而导致新颖性不足。同时，图3中的有效性数据显示，当仅使用5%的数据时，生成的分子的有效性几乎达到了最大值。

以上模拟数据表明，基于一小部分锌数据集的BO采样可以得到与基于整个锌数据集相似的结果。为了确定采样分子的质量和采样速度之间的平衡，我们进一步比较了不同采样下生成的分子的质量尺度来选择适当数量的潜在分子点。如图4和S3所示，由基于bo的RELATIONpha模型生成的分子（橙色，整个锌设置为潜在点X）比RELATIONpha（蓝色）生成的分子有更有利的对接分数，并且更类似于现有的抑制剂。它也可以观察到，只使用20%的锌数据集作为潜在点X可以产生与使用整个锌数据集几乎相同的性能。因此，选择20%的锌数据集作为潜在分子点的标准X用于BO的以下研究。
Docking Results of the BO Sampling Process.
基于dl的de novo（从头）药物设计通常应用于发现新的候选药物的初始阶段。通常采用分子对接或其他虚拟筛选方法等计算方法从生成的化合物库中选择具有所需性质的分子。只保留排名最高的分子用于结构修饰、合成和生物评价。在这里，我们使用对接分数来研究生成的分子对AKT1和CDK2的结合亲合力。首先，研究了AutoDock Vina对接程序的适用性，并使用皮尔逊系数来测量实验半抑制浓度值与预测的对接分数之间的线性关系。如图S4所示，对接分数与pIC50值在一定程度上呈线性相关（r的绝对值在0.4到0.6之间）。因此，使用AutoDock Vina来评估AKT1和CDK2抑制剂的潜在活性是可靠的。
10,000个有效分子对AKT1和CDK2的对接结果如表S2所示，其中，由基于bo的关系和RELATIONpha模型生成的大多数分子表现出更好的对接分数，约为−9到−8千卡/摩尔。然而，由原始的两种关系模型生成的分子的对接分数约为−8到−7千卡/摩尔。表S2还显示，两种基于bo的关系模型生成的分子的平均对接分数都低于其他模型生成的分子，说明基于bo的关系结构生成的分子更有可能在后续的筛选中取得成功。
为了进一步研究基于bo的关系模型的性能，我们将不同模型生成的有效分子与AKT1和CDK2抑制剂一起绘制，用于t分布随机邻居嵌入（T-SNE）分析，如图5（AKT1）和S6(CDK2)所示。如图S5所示，关系模型和RELATIONpha模型不能有效地探索AKT1抑制剂的化学空间（红色圆圈中标记的点）。然而，通过在关系模型中引入BO采样，采样分子在化学空间中的分布比原始关系模型更分散，扩展了生成分子的“模仿”AKT1空间。此外，根据点的颜色梯度，从基于bo的关系模型中采样的分子比从原始关系模型中采样的分子表现出更有利的对接分数，这与表S2的结果一致。

抑制剂的PLIFs（蛋白−配体相互作用指纹）和从AKT1蛋白口袋中生成的10000个分子中随机选择的1000个分子分别如图S6和S7所示。结合构象中形成的侧链主氢键、支架主氢键、离子吸引和表面接触被计算作蛋白质−配体指纹。显然，从基于bo的关系模型中取样的分子与原始关系模型（∼0.5）相比，与AKT1抑制剂具有更高的谷本相似性（∼0.5）。
根据以往的研究，理想的AKT1抑制剂可能具有以下构象和药效团特征（图1）：该化合物可以分别与铰链区和酸孔形成两个氢键，对环区也有一个疏水基团。图6展示了由不同关系模型生成的一些例子。可以发现，生成的分子与AKT1抑制剂具有相同的构象，对铰链区、酸孔和环区具有相同的取向。右侧的药效团特征也与理想的AKT1抑制剂相一致。同时，对接和药效团分数的结果显示，引入BO抽样，关系和RELATIONpha可以生成分子与良好的对接分数，但BO-RELATIONpha生成的分子有更高的药效团匹配分数，从而可以产生更理想的药效团特性。

根据上述不同关系模型的对接结果，可以得出关系模型的对接性能有很大的影响并结合了BO工艺进行了改进。通过使用基于bo的采样，采样对接分数更好的分子，这些分子与口袋的结合模式更类似于现有的抑制剂。此外，通过将药效团特征引入到关系体系结构中，该模型可以根据预设的药效团特征进行条件生成。

CONCLUSIONS
在本研究中，我们提出了一种新的基于dl的方法，即基于蛋白质−配体复合物的三维结合构象的分子生成关系。采用DSN来促进配体和配体−蛋白复合物之间的信息交换。通过引入药效团约束和基于bo的采样，关系模型可以生成具有期望性质的新化合物。
针对AKT1和CDK2进行了靶标特异性化合物设计，研究了两种关系模型的性能。首先，我们对关系模型生成的分子进行了分子质量评价和T-SNE分布分析。结果表明，在关系模型中实现的双向TL在模拟现有抑制剂的理化性质方面比其他方法具有很大的优势。其次，为了创造具有所需特征的新分子，在关系体系结构中引入了条件生成和基于bo的采样。对接计算结果表明，优化后的关系生成的分子与现有抑制剂具有更好的结合亲和力和更高的相似性，并具有更高的药效团匹配分数。总体评价结果表明了我们的关系模型对这种目标特定任务的有效性。我们预计我们的模型将成为基于结构的新药物设计的一个有价值的工具。
今后，我们将进一步优化该关系模型。第一个方向是优化模型的体系结构，使模型更适合于多目标控制生成任务。另一个方向是函数优化。例如，我们可以通过在模型中引入结构修饰的功能，来修改现有的类似药物的结构或非活性化合物，以获得新的化学实体。

以上是论文前面关于结果的一些的翻译，相对而言有些抽象，对于菜鸡的我而言，感觉还是没能学到什么实质性的东西，所以，之后继续更新该篇论文的新章节，实验部分，如果后续能搞到代码的话，还会出现新的篇章，代码解读，慢慢来吧，路漫漫其修远兮，吾将上下而求索。