背景
化学反应生成对合成化学的基础作用及其在新分子设计和合成路径优化中的应用至关重要。合成化学在创造新物质、新结构和新功能方面起着不可替代的作用,是化学科学的核心之一。但传统方法在反应条件控制和副反应管理等方面存在明显限制,这些限制阻碍了化学合成的效率和精确性。随着人工智能算法的发展,通过人工智能挖掘化学数据中潜在的信息有望为化学反应研究提供新的视角和方法。我们调研了人工智能方法在合成化学领域的一些典型应用,并从中总结了一些可能的发展方向。
01
机器学习在合成化学中应用的最新进展大致可以分为逆合成分析、反应的发展和反应的发现三大类
1)逆合成分析:从反应语料库中学习,以预测已知反应何时适用于新底物的合成,如单步或多步的逆合成分析,或产物结构的预测等。
例如,Graph2Edits[1]利用图神经网(GNN)和图编辑操作来表示和预测化学反应,通过对图结构的编辑模拟化学反应过程。该模型采用了自回归的预测方式,从产物出发一步步预测可能的化学改变,直到得到合适的反应物。因为其能够直接在图结构上进行操作,在处理单步反应和较为简单的化学反应中表现良好。但不足是在处理多步反应和需要复杂反应条件的优化时,表现较为有限,难以有效捕捉多种反应条件的复杂关系。
图1
2)反应的发展:加速现有化学过程的改进或优化,包括反应条件的推荐或优化,底物适用性的评估和催化剂的设计。通过对化学数据的智能处理实现对给定条件下化学反应产出的预测,包括反应产率和选择性等。例如,科学家们提出一种混合模型[2]用于预测不同反应条件下复杂分子中的硼化位点,该模型结合了密度泛函理论、半经验量子力学、化学信息学、线性回归和机器学习来预测位点选择性并将这些预测外推到新的化学空间。比之前的机器学习模型或人类专家具有更高的准确性,从而可以应用于反应条件的优化。
图2
3)反应的发现:通过反应机理的阐明或前所未有的合成方法的发现创造新的知识。
例如,在一项机器学习引导的预测电化学反应能力的工作中[3],首先开发了一种新颖的分子表示模型对已有反应数据进行预训练。然后采用自动化实验来测试生成的大量电化学反应。这些反应被分类为有能力或无能力混合物,并训练分类模型来预测反应能力。该模型用于在计算机中筛选 38,865 个潜在反应,并通过预测来识别许多具有合成或机理意义的新反应,其中 80% 被发现是有效的。
图3
02
在化学反应预测和合成路径优化领域,LLM已显示出显著的发展潜力
Chen等人提出了一种基于LLM的AI代理Chemist-X,该代理能够自动推荐最佳反应条件,极大地提高了化学合成的效率和精确度。该模型通过多模态学习和上下文增强学习来优化反应条件,显示了LLM在化学领域的实际应用潜力[4]。Kwon等人通过使用生成模型来预测化学反应的多种适宜条件,提出了一种新的方法来全面指定关键反应元素,优化化学反应的条件选择[5]。ReLM框架由Shi等人提出,通过整合语言模型和图神经网络,提升了化学反应预测的准确性,特别是在处理复杂化学信息时的表现优越[6]。Lu和Zhang开发的T5Chem模型,展现了LLM在多种化学反应预测任务中的应用,通过强大的自监督预训练和多任务学习架构,提高了模型的泛化能力和预测精度[7]。
03
趋势总结
随着机器学习和人工智能技术的发展,研究者们开始尝试合成化学中越来越复杂的问题,从反应物产物的结构预测、指导实验,到从提高产率、降低有害副产物生成等约束条件优化反应条件、催化剂等,再到尝试发现新的未知反应机理、突破知识边界。而大语言模型在这个过程中扮演着越来越重要的角色。化学反应式本身类似一种语言表示,大语言模型可以较好得学习到反应物、产物及反应条件之间的内在关联,随着模型规模和数据量的增长,可以预见其预测及优化效果将更加显著。
参考文献
[1] Zhong W, Yang Z, Chen C Y C. Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing[J]. Nature Communications, 2023, 14(1): 3009.
[2] Caldeweyher E, Elkin M, Gheibi G, et al. Hybrid machine learning approach to predict the site selectivity of iridium-catalyzed arene borylation[J]. Journal of the American Chemical Society, 2023, 145(31): 17367-17376.
[3] Zahrt, A. F.; Mo, Y.; Nandiwale, K. Y.; Shprints, R.; Heid, E.; Jensen, K. F., Machine-learning-guided discovery of electrochemical reactions. Journal of the American Chemical Society 2022, 144 (49), 22599-22610
[4] Chen, K.; Li, J.; Wang, K.; Du, Y.; Yu, J.; Lu, J.; Chen, G.; Li, L.; Qiu, J.; Fang, Q., Towards an automatic ai agent for reaction condition recommendation in chemical synthesis. arXiv preprint arXiv:2311.10776 2023.
[5] Kwon, Y.; Kim, S.; Choi, Y.-S.; Kang, S., Generative modeling to predict multiple suitable conditions for chemical reactions. Journal of Chemical Information and Modeling 2022, 62 (23), 5952-5960.
[6] Shi, Y.; Zhang, A.; Zhang, E.; Liu, Z.; Wang, X., Relm: Leveraging language models for enhanced chemical reaction prediction. arXiv preprint arXiv:2310.13590 2023.
[7] Lu, J.; Zhang, Y., Unified deep learning model for multitask reaction predictions with explanation. Journal of chemical information and modeling 2022, 62 (6), 1376-1387.