文献笔记:Benchmarking graph neural networks for materials chemistry
链接: https://doi.org/10.1038/s41524-021-00554-0.
摘要
GNNs很适用于材料领域,很多成功的GNNs已经用在了从晶体稳定性到电子性质预测,再到表面化学和多相催化。但没有一个统一的基准,阻碍了新模型的发展和统一评估。
这篇文章提出了一个统一的流程和测试平台,MatDeepLearn,来快速和可重复的评估和对比GNNs和其他的机器学习模型。
通过整个模型发现了1)超参数选择的重要性,2)GNNs的优点: 3)缺点。
Introduction
ML模型基于描述符:Coulomb matrix, atom-centered symmetry functions (ACSFs), and smooth overlap of atomic positions (SOAP)。
找到effective 描述符——challenging problems.
GNNs克服了静态描述符的limitations, 利用基于atom的节点得出节点级别的embeddings,通过与邻居点和边做卷积。
有必要对当前state-of-the-art(SOTA)最先进技术进行批判性评估:
1)使用相同的数据集;
2)数据库可以代表材料化学中多样化的问题;
3)相同的输入信息或表示;
4) 超参数优化到相同的程度;
5)可重复。
根据这些标准,提出了MatDeepLearn.
processing部分是data processing.
RESULTS
从几个方面进行分析:1.通过数据集评价性能;2. GNN特征可视化;3. 训练规模的依赖性;4. 表征敏感性的评估。
一,通过数据集评价性能
7个ML模型,5个数据集;
前四个SOTA模型在多个数据集中相差不多;
第五个GCN表明,SOTA可以比GCN更好的提取空间信息;
第6个SOAP效果不好,但在快晶体和2D材料上表现很好;说明仍有空间信息提取能力。
第七个是baseline
二, GNN特征可视化
t-distributed stochastic neighbor embedding (t-SNE)
三,训练规模的依赖性
四,表征敏感型的评估
DISCUSSION
amper数据量时,GNNs性能更好;
数据集小,预设的描述符性能更好,但超出应用范围,效果很快就变差。
结合领域知识,可以补充现有的灵活性和学习表达的能力。
利用现有的高通量数据库,迁移学习也可以提高性能。(promising avenue)
Methods
SchNet:
MPNN:
CGCNN:
MEGNet: