论文笔记|基于副产物的单步逆合成预测-CSDN博客

本文链接：https://blog.csdn.net/2303_79001442/article/details/133277379

本文介绍了一种新的深度学习框架RPBP，它考虑副产品信息进行逆合成反应预测。RPBP采用两阶段策略，先预测副产物，再根据产物和副产物预测反应物，提高模型的化学可解释性。实验结果显示在不同条件下，RPBP的预测精度优于现有方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章来自于中国药科大学理学院分子设计与药物发现实验室，论文的标题为RPBP: Deep Retrosynthesis Reaction Prediction Based on Byproducts 论文和源码的下载链接在结尾处。

1. 介绍

在深度学习兴起的当下，数据驱动的深度逆合成预测成为研究的焦点。然而，由于几乎所有的数据集都缺乏副产品信息，使得目前的深度学习方法很少考虑副产物信息。这对逆合成路线设计来说是巨大的损失，也不符合人类科学家的思维方法。受到两阶段策略和降低模型复杂性方法的启发，作者们提出了一种基于副产物的新型两阶段逆合成反应预测框架，称为 RPBP。首先，RPBP根据产物分子预测参与反应的副产物。然后，它根据产物和副产物来进行逆合成预测。与一般的二阶段策略不同，RPBP还考虑副产物的潜在反应位点、类型和条件，这也增加了模型的化学可解释性。在反应类别未知和已知时，RPBP模型的top-1预测精度分别达到 54.7% 和 66.6%。下图是RPBP模型的概念图，图a是模型的第一部分，用于预测副产物；图b是模型的第二部分，用于预测反应物。值得一提的是在a中，对于样本分布不均匀的情况时会采取数据增强的方法。

通过分析目前一些模型的top-1结果，作者发现当化合物具有多个潜在反应中心时，直接预测的模型倾向于做出简单的预测，而逃避复杂的预测；而对于两阶段框架，化学家可以指定反应中心，使模型能够做出相对复杂的预测。对于RPBP，如果没有人工干预，也就是直接将第一阶段模型预测的副产物输入到第二阶段模型中来预测反应物， RPBP 和 GraphRetro对于氢化获得产物的偏好是一致的。然而，如果我们提供“Br”作为副产物，RPBP* 就会意识到需要亲核取代才能产生该产物，这与化学家的观点一致。

2. 实现方法

2.1 数据准备

作者使用的是常用的数据集USPTO-50K。在训练之前作者先把数据按照训练/测试/验证集按比例 8:1:1进行划分。由于数据集中不包含副产物的信息，所以首先还要认为合成每个反应对应的副产物。合成的方法是参照GraphRetro（1）。首先，利用反应物与产物之间的原子映射找到断键的位置；然后分离不在产物上的片段；最后根据断键的类型将片段进行拼接和补全。如下图所示，三种不同情况下副产物的提取方法。(a) 一种反应物。 (b) 两种反应物。 (c) 特殊情况。

通过上面的方法，在训练集中总共提取了253种副产品。提取之后还要人工的修改，使其保持化学合理性。对于没有副产物的反应，为了方便模型预测，将这些副产物定义为“<eos>”。最终得到217种副产物。然后对副产品出现的次数进行统计与排序，出现次数最多的副产品标签为0，出现次数最少的副产品标签为216。图4显示了217种副产品的降序分布（分成5类）。统计显示数据集反应类别的极度不平衡，这表明副产品存在偏态分布。

为了减少数据分布带来的不良影响，作者借鉴GraphSMOTE（2）中的方法合成一些样本。另外，有研究显示对于输入和输出合适的SMILES表示可以降低模型复杂度（3）。下图显示了选择合适分子表示的两个过程。首先，对于训练中的每个反应，通过计算最小编辑距离生成副产品的 SMILES 表示。通过计算每个 SMILES 表示出现的频率，获得了同一副产品的不同 SMILES 表示出现概率的字典。获得概率字典后，就可以按照字典选择用于训练、测试和验证集的副产品 SMILES 表示。图b显示了选择过程。副产物的规范 SMILES 表示源自产物和反应物的反应。那么，根据概率字典，65%的概率是‘OCC(C)C’。

2.2. 模型设计。

为了更好地控制模型预测的方向，作者将逆合成预测分为两个阶段，包括副产物的预测和反应物的生成。这两阶段方法是互补的，借助副产品信息，可以更好地降低第二阶段模型预测的复杂性。

2.2.1.副产品预测

副产品预测由四部分组成，少数类采样、编码层训练、合成少数过采样和解码层训练。少数类采样是为了控制输入模型的每批数据中少数类样本的比例。编码器是Somnath提出的消息传递网络MPN（1）的一种变体，用于获取产品的图表示。获得产品的图表示后，再根据数据前面说到的数据增强方法合成副产品中少数类图的表示。至于解码层，则是根据上面的图的表示预测可能的副产品和相应的概率。

2.2.2.反应物生成

有了副产品的信息，接着就是拼接产品信息一起送入模型预测反应物。副产品和产品的拼接方式如下图所示。对于图 6a，副产物是“<eos>”表示没有副产物，则仅输入产品 SMILES。对于图6b，只有一个副产物的情况，就用“.”连接产物和副产物。对于图6c，如果反应有多个副产物，还是使用“.”来连接副产物。另外，副产品SMILES表示则按照前面2.1中的方法获取。解决模型的源序列后，反应物生成就像一般的序列到序列的翻译问题。

3. 结果

3.1 表对比现

作者将 RPBP 在单步逆合成基准数据集 USPTO-50K上的整体性能与现有方法进行了比较。下表列出了top-n准确率结果，当反应类别未知时，RPBP达到54.7%，在top-1准确率上比GraphRetro高1%，比AT高1.2%。对于较大的top-n，RPBP与其他两阶段预测方法明显不同。随着n的增加，RPBP与最先进（SOTA）模型之间的差距缩小。这可能得益于以下三个原因。第一个原因是将第一阶段的 10 种不同的副产品放入第二阶段。其次，第二阶段的数据增强为模型带来了丰富的信息。第三，将频率信息合理地融入到结果排名中。当反应已知时，RPBP达到66.6%，在top-1准确率上比RetroPrime高1.8%，比SemiRetro高2.2%，比GLN23高2.4%，排名最好。

3.2 示例预测

下图是RPBP 对 (a) Orelabrutinib、(b) Palbociclib、(c) Ceritinib 和 (d) ATR 受体配体的多步合成预测。反应中心以及原子和键的转变在不同的反应步骤中以不同的颜色突出显示。从图中可知，在每一步的预测中RPBP预测的rank1并不总是与文献的一致。因此，在完成路径预测时，RPBP还需要依靠MCTS等搜索算法进行更多的探索。此外，得益于第一阶段副产物的准确预测，RPBP在Suzuki偶联反应、氨基脱保护反应、Friedel−Crafts酰化反应等不同类型的反应中均表现良好。

4. 局限与展望

4.1 局限

对于第一阶段，RPBP的最大限制是训练过程中需要副产物信息，这对现有的反应数据库是一个挑战。如果不解决副产品提取问题，就很难将其应用到更大的数据库中。此外，如果要预测的副产品不包含在训练集中，模型将很难做出准确的预测。开源的一些专利响应可能无法验证，或者收益率可能不高；因此，在设计高质量的反应路线时，需要经验丰富的化学家来评估预测的副产物。对于第二阶段，主要问题是缺乏可解释性和计算资源消耗过多。为了追求更高的准确性和多样性，RPBP为每个原始产品产生了2000种可能的反应物，大约50%的结果在化学上无效。这使得模型的优化和扩大实验、时间和计算成本变得昂贵。总而言之，副产品的提取困难和Transformer模型训练的计算成本也不容忽视。

4.2 展望

对于第二阶段，在以后的工作中可以用模板匹配方法代替Transformer，以增加模型的可解释性并降低计算能力的成本。另外，由于RPBP的预测精度受到第一阶段副产物预测的极大限制，未来的工作可以通过融合反应中心的信息来进一步提高模型的性能。

(1) Somnath, V. R.; Bunne, C.; Coley, C.; Krause, A.; Barzilay, R.Learning graph models for retrosynthesis prediction. Adv. Neural Inf.Process. Syst. 2021, 34, 9405−9415.

(2) Zhao, T.; Zhang, X.; Wang, S. Graphsmote: Imbalanced node classification on graphs with graph neural networks. In Proceedings of the 14th ACM international conference on web search and data mining,2021; pp 833−841.

(3) Zhong, Z.; Song, J.; Feng, Z.; Liu, T.; Jia, L.; Yao, S.; Wu, M.;Hou, T.; Song, M. Root-aligned SMILES: a tight representation for chemical reaction prediction. Chem. Sci. 2022, 13 (31), 9023−9034.

论文链接：https://pan.baidu.com/s/1kt4B5rO9b8QM86hDBAFBjg?pwd=920x 提取码：920x

源码链接：https://github.com/yyc776/RPBP