【学习笔记】PNAS2022-AIphaDrug

JackCrum

已于 2022-12-22 18:35:02 修改

阅读量788

点赞数 2

分类专栏：学习笔记 python 神经网络文章标签：学习人工智能健康医疗

于 2022-12-09 17:37:34 首次发布

本文链接：https://blog.csdn.net/JackCrum/article/details/128256196

版权

神经网络同时被 3 个专栏收录

20 篇文章

订阅专栏

python

9 篇文章

订阅专栏

学习笔记

4 篇文章

订阅专栏

一. 代码运行

1.1 Run

python /home/huangjiehui/Project/AIProtein/StructuralReconstruction/AlphaDrug/train.py --layers 4 --bs 16 --device 0,1,2,3

二. 摘要

由于离散分子搜索空间的巨大组合复杂性，传统药物发现非常费力、昂贵和耗时。研究人员求助于机器学习方法来帮助解决这个难题。然而，大多数现有方法要么通过蛋白质-配体亲和力预测对现有化合物数据库进行虚拟筛选，要么是无条件分子生成，这不考虑蛋白质靶点的信息。本文提出了一种面向蛋白质靶点的de novo药物设计方法，称为AlphaDrug。我们的方法能够以自回归的方式自动生成分子候选药物，候选药物可以很好地对接到给定的目标蛋白质中。为了实现这一目标，我们设计了一个用于蛋白质靶点和分子联合嵌入的改进变压器网络，以及用于条件分子生成的蒙特卡洛树搜索（MCTS）算法。在变压器变体中，我们施加了从蛋白质编码器到分子解码器的跳过连接的层次结构，以实现有效的特征转移。变压器变体根据蛋白质靶点和分子中间体计算下一个原子的概率。我们使用概率来指导MCTS的前瞻性搜索，以增强或纠正下一个原子选择。此外，MCTS还以对接程序实现的值函数为指导，因此很少选择具有许多低对接值的路径。对各种蛋白质靶点的实验证明了我们方法的有效性，表明AlphaDrug是特定目标新药物设计的潜在有希望的解决方案

人工智能驱动的药物设计的核心目标是产生能够很好地与其蛋白质靶点结合的分子。然而，大多数现有的深度学习方法很少考虑蛋白质靶点，因此生成的分子对结合亲和力的性能很差。在这里，我们提出了一种蛋白质靶向特异性新分子生成方法，称为AlphaDrug。我们训练了一个Lmser变压器（LT）网络，以有效地了解蛋白质靶点和分子的联合分布。然后，使用对接程序和LT网络实现的值函数来指导蒙特卡洛树搜索（MCTS）进行条件分子生成。实验表明，我们的方法可以产生具有高结合亲和力的新型分子。

三. 引言

一种新药从研发到市场的支出估计在3.14亿至28亿美元（1.2美元之间），开发期平均需要超过10年（3）。计算机辅助药物设计利用硅计算方法，通过模拟小分子和目标之间的相互作用来加快过程并降低开发成本

由于复杂的药物-目标相互作用和估计有1060种具有类似药物特征的化合物的广阔化学空间，药物设计是一个具有挑战性的计算问题，这超过了太阳系中的原子数量（4）

近年来，深度学习方法在分子设计问题上取得了有希望的进展，例如机器学习加速的ab-initio模拟（5,6）、分子属性预测（7,8）、受体-配体结合亲和力预测（9,10）等。这些方法可以通过现有的候选药物类化合物数据库用于虚拟筛查。然而，这种虚拟筛选依赖于复合数据库的覆盖范围和多样性，并且非常密集的计算

另一股研究流是通过深度生成模型进行新的分子生成。例如，分子可以生成，以满足变分自动编码器（VAE）或生成对抗网络（GAN）下的某些物理化学或定制特性，以简化分子输入线进入系统（SMILES）或分子图（11-15）。这些方法能够产生新的化合物作为候选药物，但在生成过程中忽略了蛋白质靶点。因此，获得的分子通常与目标没有良好的结合亲和力。虽然在考虑蛋白质靶点以实现目标特异性分子生成方面做出了一些努力（16,17），但性能仍然远远不能令人满意

本文提出了一种名为AlphaDrug的新方法，用于生成与给定蛋白质靶点具有良好结合亲和力的分子。为了加强药物-目标相互作用的表示学习，我们通过设计从蛋白质编码器到分子解码器的跳过连接的层次结构，提出了一种变压器变体，以改善特征转移。我们以逐一的符号构造方式进一步模拟了蒙特卡洛树搜索（MCTS）的分子生成过程。我们不仅使用选择变压器变体预测的下一个符号的概率，还使用外部广泛使用的程序计算的对接模拟来有效指导MCTS。实验验证了我们方法的有效性

我们的贡献简要总结如下：

我们提出了一种名为AlphaDrug的模型，用于给定蛋白质靶点的新分子生成。该模型具有变压器变体，提高了学习蛋白质信息的效率，以及以变压器的预测和对接值为指导的高效MCTS。
实验和消融研究表明，我们的方法优于现有方法，可以生成比已知配体或药物更高的结合亲和力分数分子

四. 相关工作

1.1 不考虑目标的分子生成

已经开发了深度生成模型，以生成和优化具有某些物理化学和药理特性的分子。强化学习（RL）已被用于训练生成模型，以产生具有所需性能的分子。De novo药物发生器被视为RL剂，该制剂在分子字符串生成过程中采取行动选择下一个SMILES符号，以最大限度地提高奖励，该奖励是在SMILES字符串完成后计算的。对于基于字符串的方法，提出了将循环神经网络（RNN）与RL算法相结合的REINVENT算法（18），通过微调RNN的模型参数来优化生成分子的分数，并能够控制分子结构。ReLeaSE算法（19）集成了两个单独训练的生成深层神经网络，共同生成新的化学库。引入了RL方法，以根据具有所需物理和/或生物特性的生成进行调整。ChemTS模型（20）利用RNN学习中间分子SMILES字符串上下一个符号条件的模式，并使用学习的连接规则来指导MCTS的分子生成。

在分子的图形表示方面也做出了努力。JT-VAE（11）通过首先生成化学子结构的树结构支架并根据生成的支架组装子结构来生成有效的树结构分子。GraphAF（14）是一个基于自回归流的模型，以顺序生成分子图，在添加新原子或键时检查有效性。GCPN（15）是一个基于通用图卷积网络的模型，用于通过RL生成目标定向图。它经过训练，通过策略梯度优化特定领域的奖励和对抗性损失，并在包含特定领域规则的环境中行事

1.2 目标特异性分子生成

最近，一些研究人员开始关注生成与特定结合口袋结合的分子。在LiGANN模型（16）中，蛋白质口袋的结构通过BicycleGAN映射成配体的形状，然后通过字幕网络将配体的形状解码为SMILES。为了使用蛋白质的3D信息来控制类药物分子的生成，使用粗粒原子的库仑基质来训练条件RNN模型（21）。通过（22）中的图神经网络学习了每个原子在结合位点背景下的表示，并开发了自回归采样方案，以在3D空间中生成3D分子。虽然上述方法都考虑了结合位点的3D结构，但它们的性能仍然远远不能令人满意，因为了解分子如何在3D空间中与口袋进行几何和化学相互作用具有挑战性

另一股努力是基于字符串的方法。将定向药物生成问题表述为一项转化任务，并应用变压器网络捕获远程依赖项（17）。在为连续无条件分子生成而设计的ChemTS（20）的基础上，通过在MCTS过程中将目标对接分数约束强加到分子分布中，进一步发展了SBMolGen（23）。我们的方法也属于基于字符串的范式，其优点是分子生成自然被表述为顺序决策问题。我们的结果表明，如果我们能正确学习蛋白质靶点信息，并在可能存在的药物分子的广阔空间中进行高效搜索，基于字符串的方法在靶向的特定新分子生成方面非常有效

五. 模型框架

1.1 方法概述

我们提出了一种名为AlphaDrug的新方法，用于特定于新分子生成。AlphaDrug以蛋白质靶点为输入，并产生与目标具有强烈结合亲和力的配体分子。生成的分子是给定蛋白质靶点的有希望的候选药物。图1中给出了AlphaDrug的概述。

图 1. AlphaDrug的概述。（A）AlphaDrug的计算流程。分子是根据MCTS生长策略以自回归方式生成的，该策略是根据蛋白质序列和中间配体字符串的当前状态计算的。（B）左图显示了（24）中实现的原始变压器的结构；右图是本文中的Lmser变压器（LT）。

具体来说，配体生成过程以循序渐进的方式建模。AlphaDrug具有上下文嵌入组件和搜索组件。步骤τ的上下文Cτ被定义为以氨基酸序列S和SMILES a1a2···aτ形式的中间配体字符串的集合，即Cτ = {S, a1a2··aτ }，其中ai是一个微笑符号，i = 1, …, τ。我们设计了一个用于上下文嵌入的深度变压器网络。受最小均方误差重建（Lmser）网络（25）的启发，我们修改了标准变压器，添加从蛋白质编码器到药物解码器的跳过连接层次结构，如图1所示，以便解码器接收蛋白质的不同特征，并计算正确选择附加到中间配体字符串的下一个符号aτ + 1的准确概率P（aτ + 1|Cτ）。然后，我们计算MCTS改进的配体生长策略（aτ + 1|Cτ），该策略以概率P（aτ + 1|Cτ）为先前的生长策略。我们使用外部对接软件来计算快速推出路径的值，该值由使用P（aτ + 1|Cτ）的贪婪策略实现。

对接值能够有效地评估前瞻性模拟的质量，并从与蛋白质靶点的结合亲和力方面控制生成。在中间配体字符串到达结束符号后，生成停止。策略网络在已知配体-蛋白质对的数据集上进行训练。应该注意的是，MCTS不参与政策网络的培训过程，但在为测试蛋白质靶点生成分子时被激活。

1.2 用于上下文嵌入的Lmser变压器（LT）

由于以下原因，了解目标蛋白质和中间配体的结构背景具有挑战性。首先，蛋白质的结构和所涉及的结合位点非常复杂。其次，蛋白质-配体相互作用模式很复杂。第三，蛋白质和配体是序列长度不等的不同分子，由不同的原子集组成。蛋白质序列通常比配体分子长10倍以上。最后，在对有限的可用实验数据进行培训后，需要对de novo药物设计的新蛋白质进行良好的推广。我们将蛋白质表示为氨基酸序列，配体表示为SMILES字符串，并将两者都视为生化语言。我们使用变压器网络将氨基酸序列转换为配体SMILES字符串，其中编码器以蛋白质氨基酸序列作为输入，解码器用中间配体字符串输入。虽然原始变压器（24）在（17）中被用于同一任务，但我们发现将蛋白质信息参与分子生成是没有效率的。效率低下的原因是信息从编码器顶层传输瓶颈到不同级别的解码器层。

我们提出了一种名为LT的变压器变体来解决这个问题。在（25）中提出，Lmser网络是通过沿着中央隐藏层折叠自动编码器（AE）开发的。这种折叠等价地在配对的编码器和解码器层之间建立了正向跳过连接和反馈连接（26）。受这个想法的启发，我们强加了一个从蛋白质编码器到配体解码器的跳过连接层次结构，如图的正确图所示。1.分层跳过连接将输入蛋白质的不同级别的特征传递到相应的解码器级别，并与中间配体的特征融合。解码器充满了有关所有级别蛋白质信息的更多详细信息，并利用它们来准确预测中间配体字符串的下一个符号

在这里插入图片描述

图2. LT层的详细结构。解码器层中的交叉注意力块捕获蛋白质特征，并将其与分子特征相结合。

分层跳过连接是通过交叉关注机制实现的。细节如图2.所示。从数学上讲，交叉注意力块将配体分子解码器中的查询Qm和通过蛋白质编码器的跳过连接传递的键值对（KS，VS）映射到作为值加权和的输出中

$f_{c a}\left(Q_{m}, K_{S}, V_{S}\right)=\operatorname{softmax}\left(\frac{Q_{m} K_{S}^{T}}{\sqrt{d_{k}}}\right) V_{S}$ (1)

其中 $\frac{1}{\sqrt{d_{k}}}$ 是一个缩放因子，并使用softmax函数来规范注意力分数，来自蛋白质的信息通过公式1中的产物与分子合并。

采用编码器和解码器中的自我注意，与（24）中的原始注意力块相同，以了解序列中的依赖性。多头注意力机制用于对查询、键和值进行h次不同的线性投影，使模型能够从各种化学角度关注信息

$\begin{array}{c} \text { MultiHead }(Q, K, V)=\operatorname{Concat}\left(H_{1}, \ldots, H_{h}\right) W^{0}, \\ H_{i}=f_{c a}\left(Q W_{i}^{Q}, K W_{i}^{K}, V W_{i}^{V}\right), \end{array}$ (2) (3)

其中WO、WiQ、WiK、WiV是线性投影的参数，i = 1，…，h。由于注意力机制本身缺乏有关序列顺序的信息，我们同样在嵌入层中添加了额外的位置编码（PE）（24），如下所示：

$\begin{array}{l} f_{P E}(p O S, 2 i)=\sin \left(\frac{p O S}{10000^{\frac{2 i}{d_{\text {model }}}}}\right), \\ f_{P E}(p o s, 2 i+1)=\cos \left(\frac{p o s}{10000^{\frac{2 i}{d_{\text {model }}}}}\right) \text {, } \\ \end{array}$ (4) (5)

其中pos表示符号在蛋白质序列或SMILES中的位置，i是维度，dmodel是嵌入的维度。也就是说，PE的每个维度都对应于正弦体。有关PE的详细信息包含在补充材料中（图S4）。

1.3 用于分子生成的MCTS

AlphaDrug的目标是在所有可能的分子中搜索候选药物，以便药物候选者可以以独家方式正确地对接到蛋白质靶点。虽然我们可能会使用LT网络预测以贪婪的方式构建配体，但由于搜索空间如此之大，很容易陷入局部最佳状态。我们进一步模拟了MCTS中的配体生长过程，这是一种启发式搜索算法，广泛应用于顺序决策问题。

如图1所示，树中的每个节点代表分子的SMILES符号，从第一个根节点a1到当前一个aτ的路径形成一个中间分子a1a2··aτ。

对于de novo分子生成过程中的每个步骤，进行模拟S倍，并选择访问次数最大的子节点作为新的根节点aτ + 1。如图3所示，每个模拟包括四个步骤：选择、展开、展开和备份。

1.3.1 挑选

每个模拟从当前根节点aτ开始，并选择其连续的子节点，直到选择后到达叶子节点aτ+。对于每个选择t ∈ [1, ]，节点是通过根据PUCT（应用于树的上置信边界的预测器）算法（27）的变体形式选择符号aτ+t来获得的

$\tilde{a}_{\tau+\mathrm{t}}=\underset{a \in \mathcal{A}}{\arg \max }\left(Q\left(\tilde{C}_{\tau+t-1}, a\right)+U\left(\tilde{C}_{\tau+t-1}, a\right)\right),$ (6)

其中Cτ+t−1 = {S, m}是目标蛋白S和当前模拟中间分子m = a1 · · · aτaτ+1 · · ·aτ+t−1的上下文，A是上下文下的法律行动空间，即分子的SMILES词汇。Q(Cτ+t−1, a) = Wa/Na表示在上下文Cτ+t−1中选择符号a的平均奖励，其中Wa和Na分别是节点的累积奖励和访问时间；U(Cτ+t−1, a) = cpuctP(a|Cτ+t−1)√Nt/(1 + Nt(a)），cpuct是控制探索程度的常量。累积奖励计算为将配体的集合M对接到目标蛋白S中的分数之和，即Wa = m∈M fd(S, m)，其中M收集通过节点的有效模拟路径，fd由SMINA程序（28）实现。为了控制SMINA对接值的规模，我们使用搜索树中观察到的最大对接值将Q（C，a）的范围归一化为区间[0, 1]：

$Q(\widetilde{C}, a) \leftarrow \frac{Q(\widetilde{C}, a)-\min _{m \in \mathcal{M}} f_{\mathrm{d}}(\mathrm{S}, m)}{\max _{m \in \mathcal{M}} f_{\mathrm{d}}(S, m)-\min _{m \in \mathcal{M}} f_{\mathrm{d}}(\mathrm{S}, m)}$ (7)

在这里插入图片描述

图3. MCTS模拟的详细过程。模拟由四个步骤组成：选择、展开、推出和备份

这种搜索策略指导MCTS最初更喜欢以高先验概率和低访问次数访问SMILES符号的节点，但渐近倾向于访问可能产生与目标蛋白质具有强烈结合亲和力的分子的符号

1.3.2 扩大

给定一个选定的叶节点aτ+，每个可扩展符号a ∈ A的概率P（a|Cτ+）由LT网络计算。aτ+的子节点被添加到树中，每个节点初始化为{Na = 0,Wa = 0, P(a|Cτ+)}。

1.3.3 推出

通过快速推出来评估到达的叶子节点aτ+的值，即累积奖励的预期回报。每个SMILES符号都根据LT计算的概率以贪婪的方式选择，直到生成终端符号aτ+L或树达到最大深度。从初始符号到终端的路径形成一个完整的分子m = a1 · · · aτaτ+1 · · ·aτ+L。RDKit（29）用于验证分子的合法性。如果分子无效，则节点xl的值设置为min m∈M fd（S，m）。否则，对接分数由SMINA程序fd（S，m）计算为叶节点aτ+的值。

1.3.4 备份

对于每个选择t ∈ [1, ]，节点的统计信息都会通过将aτ+的推出值添加到累积奖励W中，并将访问时间N增加1来更新。

MCTS首先在化学（20）中被用于分子世代。我们的方法在几个方面与ChemTS不同。首先，开发ChemTS不是为了产生可以与目标蛋白质结合的分子，而是为了优化辛醇-水分配系数logP、合成可访问性（SA）和惩罚不切实际的大环。其次，我们以更高效、更准确的方式模拟MCTS的分子生成。（a）如图4所示，在AlphaDrug的推出步骤中，只有快速推出产生的分子对接分数设置为节点aτ+的值。但在ChemTS中，节点aτ+的值是通过均匀累积每个子节点的值来计算的，这表明从节点aτ+到所有子节点的过渡概率是相同的。

此策略计算的值可能会误导搜索过程。（b）当模拟时间S到达预设整数时，AlphaDrug选择访问量最大的子节点作为新根，旧根保留在内存中。相比之下，对于所有模拟，ChemTS中的根节点都固定在a1。AlphaDrug比ChemTS更有效率，因为它通过在选择步骤中修剪不太可能的分支，在搜索宽度和深度之间保持良好平衡，而ChemTS则在分子的第一部分浪费了太多的精力，对后半部分不那么在乎。（c）应该注意的是，AlphaDrug通过将推出分子对接评估到目标来利用蛋白质-配体相互作用模式。ChemTS不考虑任何有关蛋白质靶点的信息来指导分子生成，因此一般来说，生成的配体无法正确对接到指定目标。

1.4 损失函数

我们以监督的方式对公共数据库D中可用的配体-蛋白质对进行LT训练。对于每对（S，m）∈ D，S表示目标蛋白质，而m是SMILES格式a1···aLm的分子。我们构造一个上下文序列Cτ = {S, a1···aτ }, τ = 1, …, Lm，并将其输入LT网络，以计算预测下一个符号aτ + 1的概率P（a|Cτ）。目标是最大限度地减少以下交叉熵损失：

$J(\Theta)=-\sum_{(S, m) \in \mathcal{D}} \sum_{\tau=1}^{L_{m}} \sum_{a \in \mathcal{A}} y_{a} \ln P\left(a \mid \mathrm{C}_{\tau}(\mathrm{S}, m)\right)$ (8)

其中表示LT网络中的参数集，A是配体SMILES的词汇集。二进制标签ya表示a是否是下一个符号。

六. 实验

1.1 数据集

BindingDB（30）是一个蛋白质-配体对的公共数据库，其中蛋白质被认为是药物靶点，配体是小型的类药物分子。我们下载了包含230多万条绑定记录的最新版本。使用以下标准从粗数据库中过滤蛋白质-配体对，如（17）

在这里插入图片描述

图4. AlphaDrug和ChemTS在推出步骤中的差异。（A）我们的推出。（B）在ChemTS中推出

蛋白质只属于智人。
IC50 值小于 100 nM；如果缺少 IC50，则
Kd小于100 nM；如果两者都缺失，那么EC50更少
超过100纳米。
该记录具有化学标识器（PubChem CID）。
该记录有SMILES代表。
分子量小于1000 Da。
该记录具有蛋白质标识器（Uniprot ID）。
蛋白质序列长度大于79，小于1001。
目标中的蛋白质链数量等于1（>1意味着一个多链复合体）

过滤后，我们构建了一个包含239,455个蛋白质-配体对的数据集，其中有981个独特的蛋白质序列。然后，我们使用Mmseqs2（31）以30%的序列恒等级生成序列集群，这同样用于在AlphaFold2（32）中构建Big Fantastic数据库，并随机选择25个集群作为测试集。我们选择90%的剩余集群作为训练集，其余10%进行验证。总之，我们的数据集包含192,712对用于训练的蛋白质-配体，17,049对用于验证，以及来自25个集群的100种用于测试的蛋白质。由于MCTS在测试中被激活，并且对接过程需要测试蛋白质的3D结构，因此我们从PDB绑定网站（http://www.pdbbind.org.cn/index.php）下载相应的3D蛋白质结构。我们使用EMBL-EBI网站（https://www.ebi.ac.uk/Tools/msa/clustalo/）提供的Clustal Omega工具（33）来计算不同蛋白质之间的相似性。图中给出了不同子集之间成对序列相似性的分布。5.所有蛋白质序列的相似性都不到30%。有关蛋白质相似性矩阵的详细信息包含在补充材料中（图S3）

训练和验证实例是通过向右移动输入配体字符串作为基本真理输出来构建的。为了方便起见，我们在所有蛋白质序列和配体字符串前面添加了一个开始符号“&”，并在末尾添加了一个终端符号“$”

1.2 评估指标

我们使用以下标准来评估以测试蛋白质为目标的生成分子。请注意，对接分数是主要指标，因为本文的任务要求生成的分子与蛋白质靶点很好地结合

（1）对接得分。一般来说，药物应该很好地对接到其蛋白质靶点的结合位点。结合能被视为描述分子和蛋白质之间结合亲和力的一般指标。SMINA（28）是一个免费、广泛使用的程序，用于计算绑定亲和力。我们使用SMINA输出的负值作为对接分数。对接分数越高，分子对接到蛋白质中就越好
（2）独特性。药物设计模型应该能够根据不同的蛋白质产生不同的分子。唯一性值越高，模型对蛋白质就越敏感。此指标的计算方式如下：

$\text { Uniqueness }(\%)=\frac{\#\left(\operatorname{Set}\left(\bigcup_{s \in \mathcal{S}} \operatorname{Set}(\mathcal{M})\right)\right)}{\#\left(\bigcup_{s \in \mathcal{S}} \operatorname{Set}(\mathcal{M})\right)} \times 100 \% \text {, }$ (9)

其中S表示测试蛋白质的集合，M表示目标蛋白s ∈ S方法生成的分子集合，#计数分子数量，Set是去除重复分子的运算符
LogP（水-辛醇分配系数）。大LogP值表示该物质是亲脂的，而小LogP表示它很容易溶解在水中。根据Ghose过滤器（34），药物的LogP值应从-0.4到+5.6不等
药物相似性的定量估计（QED）。分数从0到1不等。更高的QED表明，该分子更有可能是一种潜在的类药物化合物，具有所需的分子性质，如氢键受体、氢键供体和极性分子表面积。
SA得分。低SA分数是首选，这样分子很容易合成
天然产品相似性（NP相似性）。天然产品在药物发现史上发挥着重要作用。许多药物是天然产品及其衍生物。分数越高，分子成为天然产物的可能性就越大

1.3 实验细节

我们包括现有方法，即原始的光束搜索变压器（T+BS），LiGANN（16），SBMolGen（23），由ChemTS（20）开发，用于目标特异性分子生成，以及SBDD-3D（22），用于进行比较。在（17）中，每次解码符号时，都会选择变压器计算的概率最高的K的候选者，其中K是光束大小。在这里，我们使用K = 10（17）为每种测试蛋白质生成10个配体候选蛋白，并将其表示为“T+BS10”。此外，我们将LT与BS（LT+BS10）作为基线，将LT与原始变压器进行比较。我们直接使用原始作者的基于网络的应用程序（https://www.playmolecule.org/LiGANN）在测试蛋白质上实现LiGANN。对于SBDD-3D，我们使用作者发布的训练有素的模型。为了进行公平比较，我们都从LiGANN和SBDD-3D中为每种测试蛋白质收集了10个生成的分子。

在AlphaDrug中，我们将常数cpuct设置为等式6至1.5，以平衡开发和勘探。模拟时间S会影响MCTS的性能和计算负担。为了合理的权衡，我们设置了S = 50。我们提供两种版本的AlphaDrug，用于在给定的测试蛋白质上产生分子。首先，我们通过选择具有最大模拟访问时间的下一个符号来执行MCTS，并将此版本表示为AlphaDrug（max）。其次，我们通过根据访问时间的频率随机选择下一个符号来执行MCTS，并将此版本表示为AlphaDrug（freq）。为了进行公平比较，我们还使用AlphaDrug为每种测试蛋白质生成10个分子

1.4 结果

所有测试蛋白质指标的平均得分见表1。为每种测试蛋白质生成十个候选分子。所有1000名候选人都按指标进行评估，分数平均进行总体比较。第一行中的“诱饵”是通过从锌数据库（https://zinc.docking.org/）中随机选择10种化合物来实现的，锌数据库是用于虚拟筛选药物的商业可用化合物的免费数据库。第二行中的“已知配体”表示与数据库中蛋白质结合的原始分子。

在这里插入图片描述

图5. 不同子集之间蛋白质序列相似性分布的内核密度估计

表1. 100种测试蛋白质上所有生成分子指标的平均分数

我们观察到，就对接分数而言，诱饵基线明显比大多数其他方法更差，因为随机选择的分子通常不是特定目标的良好候选者。请注意，尽管LiGANN考虑了蛋白质靶点的3D结构信息，但其对接分数甚至低于诱饵基线。LiGANN会产生一些分子质量相对较小的分子（通常只包含一个环和相当短的侧链）。这些分子太小，无法很好地与蛋白质结合，拖累了对接分数。SBMolGen的结果甚至比使用BS的“T+BS10”（17）更糟糕，因为SBMolGen没有正确了解目标的上下文，并且从ChemTS中采用的MCTS效率不高，如图所示。4.尽管SBDD-3D使用蛋白质口袋原子的3D坐标作为化学上下文来指导模型生成分子，但由此产生的对接分数仍然远远不能令人满意。SBDD-3D也使用BS，甚至不如“LT+BS10”。香草变压器或LT基于序列的表示学习似乎比SBDD-3D对3D蛋白质的上下文学习更有效。请注意，当基于BS的LT替换香草变压器时，唯一性百分比得到了进一步提高

表1中的平均对接分数表明，AlphaDrug优于其他方法，AlphaDrug（最大值）实现了最高的平均对接分数。AlphaDrug（max）可以为每种蛋白质输出相同的分子，因为它在MCTS中对下一个符号的决策是根据最大访问时间确定性的，并且通过选择概率最高的子节点来快速推出对接值。就平均对接得分而言，AlphaDrug（max）优于AlphaDrug（freq），但AlphaDrug（freq）允许为顶级候选人搜索更多路径。下一个符号基于频率的随机决策提供了更多机会来探索更好的可能性，而代价是降低平均性能

在这里插入图片描述

图6. 通过不同方法在目标蛋白质及其相应生成的分子之间对接分数的框图

表2. 所有测试蛋白质的不同方法产生的分子的两个尾部t测试的P值

在这里插入图片描述

我们进一步研究了生成的分子和目标蛋白质之间的对接分数分布。如图6所示，所有分布在钟形中都是近似单态的，它们与表1的观测结果一致。我们评估了AlphaDrug（freq）对最先进方法的改进的统计意义，即“T+BS10”（17）、SBDD-3D（22）和LiGANN（16）。我们计算所有测试蛋白质的两个尾部t测试的P值，并在表2中报告。结果表明，AlphaDrug（freq）对所有目标的改进都很重要（P < 0.01），验证了AlphaDrug在产生有前途的候选药物方面的推广性能

最后，我们检查了生成的配体候选物的物理化学性质。表1中的结果表明，所有方法产生的分子都有可比的QED、SA、NP相似性分数，以及适合药物的LogP范围。每个属性的详细分布在补充材料中（图S1和S2）

1.5 案例分析

根据测试集中AlphaDrug产生的分子与已知配体之间的对接分数，我们发现86%的新分子的分数高于相应的已知配体。在本节中，我们将可视化生成的顶级结合亲和力分子的例子，并研究其细节。我们考虑以下三种目标蛋白质：

蛋白质3gcs是一种人类P38 MAP激酶，与索拉非尼（一种治疗肿瘤的新型多靶向口服药物）复合。
蛋白质3eig是人类二氢叶酸还原酶耐甲氨蝶呤突变体的晶体结构。它已知的配体是MTX，这是治疗类风湿性关节炎的主要药物
蛋白质4o28是耐不同类别烟酰胺磷核糖基转移酶（NAMPT）抑制剂的结构基础，这是一种瓶颈酶，在回收烟酰胺以保持细胞内足够的烟酰胺腺嘌呤二核苷酸（NAD+）水平方面发挥着关键作用（35）

我们根据与已知配体的相似性考虑两组生成的分子。我们计算RDKit（29）在分子和已知配体之间实现的Tanimoto系数。谷本系数是一种流行的相似性度量，用于比较以指纹（36）表示的化学结构。在第一组中，我们为已知配体选择了三个具有高谷本系数的分子，并在图的第三列中可视化它们。7.为了便于比较，我们在绿色中强调了分子和已知配体之间共享的最大共同亚结构。对于蛋白质3gcs，生成的分子在已知配体中含有1-乙基-4-甲基四氢喹诺沙林，而不是N-甲基吡啶。对于蛋白质3eig，产生的配体可以通过将谷氨酸部分替换为天冬氨酸部分来从已知配体中导出。它们之间唯一的区别是，谷氨酸的侧链比天冬氨酸多一个亚甲基。对于蛋白质4o28，左侧产生（R）-3-羟基-N-苯甲酰吡啶代替吡啶[1,2-a]吡啶，右侧生成羧基代替3,5-二氟苯基磺酰基。结果表明，我们的方法可靠且与已知的实验证据一致，并能够建议可能的修改来优化已知配体。

在这里插入图片描述

图7. 蛋白质口袋和蛋白质与生成分子的共晶结构。共享的最大公共子结构以绿色或蓝色着色。分子图片下的数字是由SMINA计算的对接分数

在这里插入图片描述

表3。对接计算的统计和分析以及我们方法的效率.（本表中的所有值都是100种测试蛋白质的平均结果。在这里，“∗”表示MCTS模拟时间S = 10，而S = 50设置为默认值。“有效率”表示生成的化学合法分子的比例。第三列中的值，例如104.8和559.0分别是实际对接时间和理论对接时间）

在第二组中，我们选择了三种新的顶级分子，它们与已知的配体非常不同。它们列在图7的最后一列中，其中公共部分以蓝色突出显示。对于这三种蛋白质，两个分子中的常见部分只有苯胺、嘧啶-2,4-二胺或苯基甲胺。请注意，这两组新设计的分子都比已知配体具有更高的对接分数。因此，AlphaDrug是新药设计的一种有前途的方法

1.5.1 MCTS的影响

MCTS是一个以通过等式6进行勘探和开发之间的权衡为指导的树木搜索过程，使搜索侧重于高回报节点

我们将通过基于LT计算的概率的贪婪政策实现的“LT + Greedy”作为评估MCTS带来的对接分数指标改进的基线。（平均）对接分数指标是通过将生成的分子对接到目标蛋白质中来计算的。结果在表3中报告。对接分数的详细跟踪图可以在补充材料中找到（图S5）。我们观察到，MCTS在不同模拟时间的两个设置下（分别为31.3%↑和40.0%↑）带来了对接分数指标的显著增加。预计具有50个MCTS模拟的AlphaDrug（max）版本比具有10个模拟的版本表现更好，因为它消耗了更多的计算资源。

我们在方法中计算对接计算的数量，并评估我们方法的效率。在MCTS中，进行了大量的对接，以探索巨大的未知化学空间，在那里，一个对接过程平均可能需要长达30秒。从理论上讲，要生成长度为L的分子，我们的方法需要将SMINA用于L×S时间，其中S是MCTS模拟时间。然而，在许多情况下，由于在推出步骤中使用了“LT + Greedy”，计算了同一分子-蛋白质对的对接值。为了提高MCTS的效率，我们在内存中保留一个对接表T（（S，m），fd（S，m））。每次在推出步骤产生新的分子蛋白质对（S，m）时，都会在对接表中添加新的记录（S，m），fd（S，m）。与表3一样，两个AlphaDrug版本的实际对接时间远小于方括号中的理论对接时间（分别为81.3%↓和86.0%↓）。

此外，我们还比较了MCTS与其他常规搜索在相同数量的对接时间下的性能。在这里，BS方法从常规搜索方法中选择BS作为基线。所有方法都受限于使用相同数量的对接时间，并使用相同的LT网络来预测选择下一个符号的概率。具体来说，我们在三种不同的搜索设置下考虑MCTS，即S = 10, 50, 500，其中S表示MCTS中的模拟次数。对于每个S，计算MCTS中实际对接时间的数量，BS被限制使用完全相同的对接时间。表4报告了所有生成分子对接分数的平均值，以及100种测试蛋白质中所有对接分数中前1分的平均值（括号内），以及BS和MCTS之间的t测试P值

据观察，MCTS在相同数量的对接时间下表现优于BS，不仅在所有分子上，而且在每个测试蛋白质的前1个分子上的平均对接分数方面也是如此。MCTS在BS上的增量都很重要，因为相应的P值小于0.05。MCTS根据等式6中的标准在选择步骤中很好地平衡了开发和勘探，该标准考虑了LT的预测概率和SMINA的对接分数。此外，随着对接次数的增加，预计这两种方法的性能都会变得更好，其中BS的平均前1名得分更高，MCTS在两个平均对接分数方面都会有所提高

在这里插入图片描述

表4。通过不同搜索方法对100种测试蛋白质的平均对接分数。（所有方法都受限于使用相同数量的N的对接时间，并使用相同的LT网络。平均值以两种方式计算，即在所有生成的分子的对接分数上，或（括号内）在每种测试蛋白质的所有对接分数中超过前1的分数。P值是使用BS和MCTS之间结果的t检验计算的。）

表5。一项关于分析蛋白质序列信息输入如何帮助MCTS找到高亲和力粘合剂的消融研究（在这里，“∗”表示MCTS模拟时间S = 10，而S = 50设置为默认值。“TE”、“T”和“LT”分别表示变压器编码器、香草变压器和我们的LT。在MCTS中，我们选择具有最大模拟访问时间的下一个符号（新根节点），这与AlphaDrug（max）相同。“SpS”表示每个符号的分数。）

1.5.2 蛋白质序列作为输入的效果

我们对蛋白质序列作为输入的作用进行了实验分析，结果见表5。在这里，我们训练一个表示为“TE”的变压器编码器，以学习分子生长策略，而无需输入蛋白质序列。请注意，“TE”的训练与“T”（香草变压器）和“LT”相似，并与“T”和“LT”的编码器共享相同的训练超参数。“TE”与“T”和“LT”的区别在于，“TE”没有蛋白质序列作为输入，而后两者有。有关训练超参数的更多详细信息，请参阅补充材料（表S1）。我们引入了两个指标，唯一性和每个符号得分（标记为SpS），以演示蛋白质序列在输入中的效果。唯一性以等式9计算，SpS如下所示

$\operatorname{SpS}=\frac{1}{|\mathcal{S}|} \sum_{s \in \mathcal{S}} \frac{1}{|\mathcal{M}|} \sum_{m \in \mathcal{M}} \frac{f_{\mathbf{d}}(s, m)}{\operatorname{Length}(m)}$ (10)

其中S表示100种测试蛋白的集合，M表示目标蛋白s ∈ S方法生成的分子集，fd（s，m）评估生成的分子m与目标蛋白s的对接分数

唯一性指标表示模型对目标蛋白质的敏感性。唯一性值越高，模型对蛋白质就越敏感。此外，在一定合适的长度内，由于MCTS中的更多探索，较长的分子打算获得更高的分数。SpS指标用于消除长度因子对接分数的影响。

我们考虑两组实验设置，即MCTS模拟时间的第1组和第2组分别为10和50。表5中两组的结果表明，基线（即当蛋白质靶序列联合输入“T + MCTS”模型时，“TE + MCTS”）的独特性分别提高了33%和17%。SpS也观察到了这种改善，即分别增长了10.62%和11.58%。这些改进表明，最好使用蛋白质序列作为额外的输入，因为我们的方法是为捕获给定蛋白质靶点的高结合亲和力分子的条件分布而开发的

1.5.3 LT的影响

我们还观察到，当用我们的LT替换香草变压器（T）时，两组关于独特性和SpS的表5略有改进。当MCTS通过五倍的模拟（即从第1组到第2组）的探索中变得越来越强大时，这种改进变得微不足道。LT使用的分层跳过连接可以有效地将蛋白质靶点的更多信息发送到分子解码器

根据表3“LT + MCTS∗”（即AlphaDrug*）只需要大约四分之一的“LT + MCTS”（即AlphaDrug）产生分子（每种蛋白质平均分别为52分钟和197分钟），但它们的性能相当相似。因此，在计算资源稀缺的情况下，“LT + MCTS*”是首选。

1.6 结论和讨论

我们提出了一种深度学习模型AlphaDrug，用于根据给定的蛋白质靶点进行新的分子生成。该模型的特点是对蛋白质目标信息进行有效的表示学习，MCTS进行了高效的启发式搜索，以减少由于所有可能的药物分子的巨大搜索空间而降低计算的复杂性。具体而言，我们设计了一种变体变压器，具有从蛋白质编码器到分子解码器的跳过连接层次结构，以增强特征转移。分子生成被建模为MCTS中搜索最佳路径，搜索过程不仅受到变压器生长分子下一个符号的预测概率的正确指导，还受到对接分数的值函数的正确指导。实验和消融研究验证了我们方法相对于现有方法的优势。AlphaDrug是加快药物发现过程的有前途的模型

在现实世界的药物设计应用中，AlphaDrug的性能仍有改进的空间。首先，AlphaDrug的深度表示学习是在序列数据上进行的，即SMILES蛋白质的分子串和氨基酸序列。虽然AlphaDrug已被证明比使用蛋白质3D坐标的现有方法更有效，但结合口袋的3D结构绝对是指导分子生成的关键背景。3D结构深度学习方法的最新进展，如3D卷积神经网络、几何深度学习等，可用于考虑3D信息。其次，AlphaDrug的值函数目前通过调用外部固定对接程序来实现，即SMINA，当MCTS模拟中的呼叫数量增加时，计算成本很高。建立一个可学习的端到端深层价值网络是一个很好的方向，因为联合学习政策和价值将相互受益，并更好地适应数据。第三，在AlphaDrug的每个MCTS模拟中执行快速推出并不高效。如果我们想解决这个局限性，我们需要评估潜在的结合亲和力，而不培养出一个完整、有效的分子，这极具挑战性。总之，改进AlphaDrug值得在未来做更多的工作，AlphaDrug在实际应用中具有潜在的强大功能。