低资源反应预测场景的自监督分子预训练策略

Self-Supervised Molecular Pretraining Strategy for Low-Resource Reaction Prediction Scenarios


目录

总结

一、INTRODUCTION

二、DATA

三、APPROACH

四、RESULTS AND DISCUSSION

1.Difference between Baseline and MASS-Pretrained Models

2.Effect of Reaction Training Example Size 

3.Difference between Baseline and MASS + USPTO-Pretrained Models.

4.Limitation of Best Models of Our Work

五、CONCLUSIONS

参考(具体细节见原文)


总结

        针对低资源的反应训练样本,作者构建了一个解决小规模反应预测问题的模型。使用MAsked Sequence to Sequence(MASS)的自监督预训练策略,Transformer模型可以吸收大约10亿个分子的化学信息,然后对小规模反应预测进行微调。为了进一步增强模型的预测性能,作者将MASS与反应迁移学习策略相结合。结果表明Transformer模型在预测Baeyer−Villiger、Heck、C - C键形成、官能团相互转换反应数据集的平均提升精度分别达到14.07、24.26、40.31和57.69%,表明低资源反应预测走出重要一步。


一、INTRODUCTION

        传统的给定反应物的情况下预测准确的产物是一项依靠实验和专业化学经验的相当严格的任务,需要大量的时间和投资。现有的预测反应的算法通常分为三类,基于模板的、物理化学的和无模板的方法。

  • 基于模板:通过用由专家化学家编码的化学规则或从反应数据库自动提取的化学规则来进行反应预测。这些方法无法预测超出其知识库范围的反应。
  • 物理化学:这些方法依赖于能量位垒的计算,计算成本非常昂贵。
  • 无模板:基于深度学习,绕过了需要策划的化学反应规则或费力的能量位垒计算。

        本篇工作的创新在于将自监督分子预训练与Transformer架构结合起来,构建了一个低资源反应预测场景的化学平台。与仅依赖于反应数据集的研究相比,作者的贡献在于证明了将化学分子信息与小规模反应预测任务相结合是可能的。此外,作者将MASS和反应迁移学习策略相结合,研究Transformer模型在各种小规模反应预测任务中的预测性能。值得注意的是,作者证明了分子迁移学习可以用于反应预测任务,但这并不意味着作者的方法是最先进的。作者希望这种自监督的分子预训练策略可以提高数据驱动模型在确定反应产物方面的预测能力。

二、DATA

  • 反应的代表性例子可以在图2中找到。所有的反应数据集都包含了化学和试剂信息,更加符合实际情况。
  • Molecular Pretraining Data Set:自监督预训练Transformer模型的大规模分子数据集包含10亿个化合物,来自ZINC和ChEMBL。
  • USPTO Reaction Data Set:该数据集用于反应迁移学习。所有试剂从这个数据集中被删除。此外,从该数据集中过滤不完整、重复或错误的反应。大约有380k种化学反应。
  • Baeyer−Villiger Reaction Data Set:这些反应是从一个名为Reaxys的商业数据库中提取的。然后,进一步从原始数据集中剔除不完整的、重复的和其他错误反应样本。最后,数据集中有2254个Baeyer−Villiger反应样本。
  • Heck Reaction Data Set:制备Baeyer - Villiger反应数据集的过程类似,该反应数据集源自Reaxys,并通过删除重复和错误反应进行处理。共有9405个分子间和554个分子内Heck反应。
  • C−C Bond Formation Reaction Data Set:在数据集中添加了试剂信息,有5639个反应。
  • Functional Group Interconversion Reaction Data Set:在数据集中添加了试剂信息,有1834个反应。
  • Data-Set Split:采用10折交叉验证来分割反应数据集。这些反应数据集都以1:1:8的比例分别进行测试、验证和训练。结果如表1所示。

三、APPROACH

        反应预测可以看作是一个NMT( Neural Machine Translation)任务,其中反应物是一种语言,产物是另一种语言。模型可以分为两个步骤:对大量单语数据进行预训练,然后对有限的并行数据进行微调,如图1所示。使用的模型大小为:num_layers_enc(编码器层数) = 6, num_layers_dec(解码器层数) = 6, FFN_inner_units(位置前馈层的隐藏大小) = 2048, n_heads(注意头数) = 8。每个输入token被编码为512维字符嵌入向量。使用Adam优化算法更新网络的权重,优化的学习率参数从6 × 10−5开始。

四、RESULTS AND DISCUSSION

        图5显示了在各种小规模反应数据集,采用不同策略的Transformer模型的10倍交叉验证精度。基线模型是一个Transformer模型,它只针对小规模的反应数据集进行训练。增强模型是一种Transformer模型,仅在增强的小规模反应数据集上进行训练,其中通过生成每个反应的副本,训练数据加倍。

1.Difference between Baseline and MASS-Pretrained Models

        SMILES失效在基于文本的预测模型中很常见。由于SMILES表示的脆弱性质,单个字符的更改可能导致语法无效的SMILES无法翻译成化学结构。这样的问题可以通过模型从大量的分子训练样本中学习有意义的SMILES表示来解决。在Baeyer−Villiger、Heck、C−C键形成和官能团间转换反应预测任务中,SMILES表示分别占总精度的36.36、12.03、14.63和24.19%(图6a)。

        图6b显示了一些由基线模型预测但在大规模预训练模型中不存在的具有代表性的SMILES错误。以Baeyer−Villiger为例,SMILES的变化导致基线模型无法预测反应物1的产物。同样,官能团间转换反应的预测也发生了两个变化。反应物SMILES中的(“N”)=和“CC”被基线模型忘记了,导致了语法错误的产物SMILES。与基线模型不同的是,经过大量预先训练的模型成功地生成了有效的SMILES字符串。

        此外,作者观察到一个现象,即输入SMILES的长度可能会影响SMILES错误的频率。表2显示了基线模型和大规模预训练模型中准确性与输入序列长度之间的相关性。在Heck反应预测中,当处理85 ~ 105个字符的输入时,预训练MASS模型的准确率比基线模型高15.39%。

        在小规模反应中,由于缺乏相应的知识,数据驱动模型更容易出现手性误差。在图6c中,两个预测都遵循Heck反应的规则。由于手性信息不足,基线模型错误地给出了产物中一个碳的构型,并将化合物7作为产物。相比之下,预训练的MASS模型成功地预测了这个碳原子的构型。

        预训练MASS模型对化合物中的碳原子数量更加敏感,因为该模型训练了大量不同的化合物结构。图6d显示了不同反应的例子,其中基线模型计算碳数错误,但预训练MASS模型预测正确。以Heck反应为例。基线模型忽略了反应物10的一个碳原子,给出了错误的化合物11作为预测。此外,该模型还在C−C键形成反应中向反应物14添加了一个碳原子。相反,预训练MASS模型准确地预测了相应的产物。        

        图7a显示了预训练MASS模型和基线模型在理解Baeyer−Villiger反应迁移规律方面的差异。这个例子是从化合物17到产物19的转换。在这个反应中,苯基可以稳定一个更正电荷。结果,氧被插入羰基的左边。然而,当预训练MASS模型捕捉到反应物迁移基团之间的差异时,基线模型似乎没有完全理解Baeyer−Villiger反应的特征,并错误地认为化合物18是该反应的产物。 

        在C−C键形成反应预测中,基线模型预测了16个官能团误差,而预训练MASS模型没有给出这些误差。有代表性的反应如图7b所示。基线模型将反应物20的1,4-二恶烷基替换为四氢-2羟吡喃基团,从而得到了错误的产物22。除了C−C键形成反应预测外,在Heck和官能团相互转换反应预测中,分别有21和13个官能团误差不是由masspre训练模型预测的,而是由基线模型给出。

2.Effect of Reaction Training Example Size 

        在实验1中,作者构建了Heck反应的不同训练子集,研究了反应训练数据大小对自监督分子预训练策略的影响。如图8所示,预训练方法在Heck反应中的性能受训练样本大小的影响。

        研究基线模型和MASS模型在面对极小的训练Heck数据集时,由于缺乏反应物和生成物之间的对应信息,表现出较差的性能。对500个反应进行训练时,基线模型的准确率为1.10%,而预训练MASS模型的准确率为19.98%。随着训练样本数量的增加,自监督分子预训练策略的效果显著。然而,当训练数据集的规模大于2000时,基线模型与基于mass的模型之间的精度差距逐渐缩小。这是因为大型训练集的分子信息可以加强基线模型的化学理解。当反应训练样本数量为500时,Heck反应的性能提高了18.88%,这与反应训练样本数量为6000和7000时的性能相似。经过预训练的模型对2000次反应进行微调,准确率可提高40.36%。自监督分子预训练有利于不同大小反应的预测,该方法的效果受训练数据大小的影响。

3.Difference between Baseline and MASS + USPTO-Pretrained Models.

        为了展示MASS的能力,作者将他们的方法与数据增强进行比较。然而,数据增强并没有很好地发挥作用,在每个反应预测中,增强模型甚至比基线模型更差。因此,作者没有深入研究数据增强,而是在接下来的研究中专注于反应迁移学习。采用流行的USPTO反应数据作为预训练反应源,将反应迁移学习与自监督分子预训练相结合。如图5所示,MASS + USPTO-pretrained的准确率高于MASS-pretrained和USPTO-pretrained,说明自监督分子预训练策略也有利于反应预测任务中的反应迁移学习方法。

4.Limitation of Best Models of Our Work

        为了进一步提高模型的预测能力,作者选择了最好的模型,并探讨了它的局限性。在图10中展示了每个反应预测任务的最佳模型的代表性错误。在Baeyer−Villiger反应预测结果中,有16个基团迁移误差(见图10a),占总误差的76.19%。这些反应涉及环结构,使模型混淆了哪个基团更倾向于迁移。即使通过MASS + USPTO-pretrained的Transformer模型学习分子和反应的化学知识,在现有工作中理解迁移规则也存在不足。至于Heck反应的预测,最好的模型给出了总共46个错误的预测。在对反应物碳数的记忆中,该模型有9个错误结果,占错误总数的19.57%。此外,立体化学误差(见图10b)多达15个,也占误差的很大比例。当面对C−C键的形成时,最佳模型错误地预测了21个涉及立体化学的反应(见图10c)。此外,最佳模型在处理复杂结构时更容易出错,导致碳数、官能团误差等。在官能团间转换反应数据集中,最佳模型的反应位点错误(图10d)可达10个。

五、CONCLUSIONS

        作者采用自监督分子预训练策略,从10亿个分子中吸收相应的知识,并将其传递到4个小规模的反应预测中。在自监督分子预训练的帮助下,模型在Baeyer - Villiger、Heck、C - C键形成和官能团互转换反应任务中的平均性能分别提高了8.48、11.38、11.73和23.45%。更重要的是,预训练MASS模型不仅能更好地理解SMILES和手性等一般性预测挑战,而且能更好地理解某些特定的化学挑战。作者还研究了训练数据集大小在我们工作中的影响。此外,将自监督分子预训练方法与流行的反应转移学习相结合,以处理不同的反应预测场景。该模型在Baeyer - Villiger、Heck、C−C键形成和官能团互转换反应任务中的平均准确率最终分别提高了14.07、24.26、40.31和57.69%。


参考(具体细节见原文)

原文链接:

https://doi.org/10.1021/acs.jcim.2c00588https://doi.org/10.1021/acs.jcim.2c00588代码链接:
https://github.com/hongliangduan/Self-supervised-molecular-pretraining-strategy-for-low-resource-reaction-prediction-scenarioshttps://github.com/hongliangduan/Self-supervised-molecular-pretraining-strategy-for-low-resource-reaction-prediction-scenarios

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

前世忘语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值