研究背景
数据科学和机器学习(ML)在催化领域早有应用,但当时预测算法仅被用于建立各种催化反应的定量构效关系(QSPR)。直到最近50年,催化界才更广泛地采用数据驱动方法(图1a)用于研究。而在最近十年间,催化研究广泛利用数据科学概念(数据科学通过一系列分析技术(如统计推断、可视化等)为理解数据提供了基础和背景)来助力催化研究进程。
近期,苏黎世联邦理工学院Javier Pérez-Ramírez等人全面回顾催化研究者如何利用数据驱动策略来解决异相、均相和酶催化的复杂挑战,强调了该领域的前沿以及催化子学科之间的知识迁移,揭示了催化实验在数据探索方面的差距,指出数据科学的四大支柱(描述性、预测性、因果性和规范性分析)能弥补这一差距。最后,作者提倡在实验中采用数据科学方法和数据标准化来促进数字催化的研究。
研究亮点
1、作者对2013-2023年期间的同质、异质和酶催化进行了系统的文献检索,并以数据驱动策略解决催化相关问题的不同类型,最后,作者将所有研究分为演绎型或归纳型。
2、作者提倡催化研究人员对数据驱动概念和策略要有基本了解,但数据驱动不会取代人类的直觉或专业知识。在可预见的未来,数据科学将集成到催化研究中,加速实验设计、数据分析和新知识的创造。
图文导读
通过总结众多的文献报道,作者确定了催化研究中数据驱动方法的两个主要目标。一种是通过绘制结构-性质-性能关系图来验证假设,实现演绎研究。第二种方法需要确定描述符,以便通过可解释的ML模型阐明性能。这些研究的重点是通过揭示性能与性质或性质与结构之间的关系来建立新的理论,称之为归纳研究(图1b)。这些系统性的文献分析以及将催化反应归类为演绎(或归纳方法)的通用模式,为研究提供了一个全新的平台,让人们能够深入了解数据驱动催化研究的全貌(图1c