复旦大学、中国科学院团队综述,化学机器学习:基础知识和应用
在过去的十年里,机器学习和人工智能取得了长足的进步,使我们距离智能机器的实现更近了一步。深度学习方法和增强的数据存储能力的在这一进步中发挥了关键作用。机器学习已经在图像和语音识别等领域取得了成功,现在它在以复杂数据和多样化有机分子为特征的化学领域受到了广泛关注。
然而,由于化学家不熟悉现代机器学习算法,他们在采用机器学习应用时经常面临挑战。化学数据集通常表现出对成功实验的偏见,而平衡的视角需要包含成功和失败的实验。此外,文献中合成条件的不完整记录也带来了挑战。
计算化学可以通过量子力学计算构建数据集,因此更容易接受机器学习应用。尽管如此,化学家需要对机器学习有基本的了解,才能利用数据记录和机器学习引导实验的潜力。
近日,复旦大学、中国科学院和贝尔法斯特女王大学(Queen's University Belfast)的研究人员在《Engineering》上发表综述文章:《Machine Learning for Chemistry: Basics and Applications》。
该综述介绍了机器学习的基本组成部分,包括数据库、特征和算法,并重点介绍了机器学习技术在化学领域取得的一些重要成就。综述旨在弥合化学家和现代机器学习算法之间的差距,深入了解机器学习在彻底改变化学研究方面的潜力。
论文链接:https://doi.org/10.1016/j.eng.2023.04.013
综述分为以下几大部分:
-
首先介绍了流行的化学数据库,它为实践机器学习模型提供了基础。
-
其次,提出了一些广泛使用的二维 (2D) 和三维 (3D) 特征,这些特征将分子结构转换为机器学习模型可接受的输入。
-
第三,简要概述了流行的机器学习算法,重点介绍了它们的基本理论框架和适合的应用场景。
-
第四,更详细地描述了机器学习领域取得重要进展的三个化学领域,包括有机化学中的逆合成、基于机器学习势的原子模拟和多相催化机器学习。
-
最后,对未来的机器学习应用进行了展望。
ML 中常用化学数据库
没有数据就没有 AI。因此,数据的可用性是现代机器学习应用的先决条件,其中数据集的大小和质量都很重要。在化学领域,收集和编译数据的传统由来已久,数据范围从元素原子光谱到材料宏观特性。化学中的数据科学创造了化学信息学学科,这进一步大大有利于机器学习在化学中的应用。
事实上,尽管从头开始构建大型数据集似乎令人畏惧,但许多化学数据库早在机器学习时代之前就已经可用。表 1 列出了化学领域比较流行的数据库,其中许多数据库都有悠久的数据收集和编译历史。这些数据的来源包括开放专利和研究文章、针对特定属性的高通量实验以及通常基于密度泛函理论 (DFT) 的 QM 计算。