材料科学极大地受益于机器学习和深度学习技术的进步。这些技术彻底改变了对分子性质的预测,促使传统计算方法得以改变。机器学习/深度学习技术作为数据驱动材料科学领域中不可或缺的工具,其性能预测的准确性和速度都在逐步提高。
Fig. 1 Overview of extrapolative prediction of molecular property based on the range of molecular properties and the diversity of molecular structures.
但在机器学习/深度学习技术中仍然存在一个关于其固有外推困难的基本矛盾,即对于超越现有数据的预测能力。数据驱动材料探索的主要目标是识别尚未在数据库中出现的高性能分子/材料。因此,机器学习/深度学习模型必须具有仅从现有数据中推断未知数据的能力。
Fig. 2 Model description used for the benchmark.
然而,材料数据集通常由小型实验结果组成,因而不可避免地会存在偏差。确定机器学习/深度学习模型能否克服这些偏差,并有效地推断分子性质至关重要。
Fig. 3 Evaluation methods for assessing interpolation and extrapolative performance.
来自日本东京大学工程学院电气工程与信息系统系的Hajime Shimakawa等,提出了一个全面的基准来评估12种有机分子性质的外推性能。他们的大规模基准测试显示,传统的机器学习模型在属性范围和分