
半导体材料在集成电路、能源、通信系统等领域有着重要的应用价值。有效质量(mE)是半导体的关键性能指标,与电子跃迁、热激发和载流子迁移率密切相关。然而,当前并没有快速预测mE的有效方法,这严重阻碍了对载流子迁移机制的深入理解。来自上海交通大学的李金金教授团队开发了化学可解释的有效质量预测平台(CEEM),用于快速预测n型和p型半导体的mE,并给出了与有效质量密切相关的化学因子。利用CEEM,作者建立了大规模的mE数据库,并筛选出466种低mE的半导体材料,应用在透明导电、光伏和水分解等领域。交互式CEEM平台还支持查询、预测和解释mE,为高性能半导体的发现和设计提供了重要研究工具。
图文详解
(1)模型框架
图1显示了CEEM的工作流程,包括前端(材料筛选)和后端(数据构建、结构转换和模型建立)。在本第一步中,为了获得具有高泛化性能的预测模型,需要通过高通量计算/实验获得具有相应mE的晶体结构。在这里,从数据库中收集了8924个条目,以及其他属性,如带隙和energy above hull,以帮助完成材料筛选。步骤2是特征工程,作者利用晶体结构中与中心原子最近的12个原子来表示局部化学环境,为数据集和MP数据库中的每个结构生成了晶体图向量。对于三种不同类型的数据集(训练、测试和预测),特征工程操作是一致且完全兼容的。步骤3是使用两个图神经网络(GNN)架构进行训练、预测和解释。在五折交叉验证下,获得对低电子有效质量mn和低空穴有效质量mp预测最佳的GNN模型,并用最优的GNN模型对可解释性网络(EN)进行训练,从训练样本中学习并揭示GNN内部92个节点特征的重要性,辅助材料设计。在步骤4中,从MP数据库中收集了约126K个结构,并预测满足低mn和低mp的材料,在通过带隙、热力学稳定性和元素过滤筛选得到最后的候选应用材料。
图1:CEEM平台框架
作者采用晶体图卷积神经网络作为CEEM的模型训练与预测部分。CGCNN利用结构中原子之间的连接关系,构建晶体图来预测材料的性质,在许多研究中得到了应用。可解释性是CEEM的另一个重要方面。CEEM使用的GNN具有可替代性和可解释性,且只需要一个训练好的GNN模型和一个标记好的数据集。所有五折交叉验证的训练数据集被用于模型解释。数据集中的每个图都被输入到训练好的GNN中,以及由EN生成的特征掩码。由于不同图的节点具有相同的特征,EN生成一个长度等于节点特征个数的随机向量F。向量中的每个元素作为节点的特征权值,在预测出所有节点的新特征向量后进行更新(乘以权值)。权重向量经过多次更新后,包含了从预测结果中学到的重要程度。所有图的重要性得分的平均值表示节点特征的相对贡献。此外,真阳性(TP)样本和真阴性(TN)样本从完整数据集中分离出来。这些不同的样本得到了相同的平均重要性得分。
(2)数据集
图2a显示了两个箱型图,显示了mn和mp在数据集中的分布。对于p型半导体,mp的下四分位数为3.71 m0,而mn的下四分位数则保持在0.58 m0。这符合目前缺乏具有低mE的p型半导体的情况。通常,氧化物比其他化合物更稳定,也更容易合成;然而,在大多数情况下,由于氧的存在导致较高的mE。因此,寻找更多具有低mE的半导体,扩大优良半导体材料的可用性很重要。图2b也给出了数据集中七个晶系的数量和分布。
图2:数据集分析
(3)模型预测结果
针对化合物的mE的不均匀性,作者建立了分类模型。将所有可用的数据分成五部分,采用分层抽样进行五折交叉验证,确保训练集和测试集在每一次交叉验证中的数据分布相同,从而保证CEEM的无偏预测。在CEEM中采用CGCNN和MEGNET进行了训练和测试,以确定最优的GNN模型。模型的性能绘制在图3中。准确率随着训练步长是逐渐增加的,并且在不同交叉验证中是相似的。TP和TN样本的总数大于假阳性(FP)和假阴性(FN)样本的总数,且其值保持相对恒定,这都表明对mE的分类能力足够强。在准确率方面,MEGNET对mn的预测仅略高于CGCNN,但需要更长的训练和测试时间。因此,作者最终选择CGCNN作为CEEM的GNN模型,并使用训练良好的CGCNN对mE进行预测。图3中的混淆矩阵也证明了模型对于低mE和高mE的准确判别。作者采用受试者工作特性曲线下的面积(AUC)来评估和确定模型。
图3:模型迭代与混淆矩阵分析
图4中,n型半导体的检平均AUC为0.904,p型半导体的平均AUC为0.896,显示出预测的高性能和稳定性,这也可以归因于在交叉验证中使用了足够大的训练集和分层抽样的策略。
图4:模型AUC分析
(4)可解释性分析
从图5中可以看到,“block p”(0.3920)和“第一电离能(2.5-2.7 eV)”(0.4366)分别是n型和p型模型特征分析图的最高值。这些特征在预测低mE特征方面具有更高的决策能力,GNN(或任何其他ML模型)可以使用这些主要特征将数据从高维空间转换到低维空间,从而去除不相关的特征,减少训练时间和存储成本。为了更好地衡量每个特征对分类结果的贡献,了解mn模型和mp模型学习到的排除规则和选择规则,作者计算了TP和TN特征图的绝对差值,图5c-f给出了前20个特征,其中蓝色矩形表示在决定高mE材料时具有较高的决策权,红色矩形表示在决定低mE材料时具有较高的决策权。与mn模型差值较高的前20个特征全部用蓝色表示,表示这些特征的材料不太可能具有低的mn,如“第一电离能(2.5-2.7 eV)”的材料一般具有高的mn。对于mp模型,“电负性(1.9-2.25)”等红色特征更有可能帮助材料获得较低的mp,其相关元素有镍、锗、砷等。虽然作者提出了重要的特征来帮助降维,并在选择和排除规则中揭示了重要的特征,但给出一个在MP数据库中已经存在的重要特征的结构会更直观。利用这些结构,通过离子取代可以发现更多具有理想mE的材料。作者将这些案例都提供在了补充的数据文件中。
图5:模型可解释性分析
(5)材料筛选
为了筛选具有低mE的所需材料,提取了MP中的所有结构(有126335个数据)。作者筛选的目标材料是透明导电材料、光伏材料和水分解材料,因此作者预先计划了一系列标准。在研究之前,材料必须是热力学稳定的。作者使用energy above hull来剔除所有不稳定的晶体结构。带隙也是筛选材料时的一个重要指标。HSE06带隙被认为是与实验带隙的近似值,为了得到晶体结构的HSE06带隙,对MP的中的带隙数据应用线性拟合函数(Eg(HSE06)= 1.2057 Eg(GGA) + 0.3589)进行了修正。对于透明导电材料,作者采用定义的筛选规则为:热力学稳定性、足够宽的带隙以避免与可见光光谱重叠、低mE;对于光伏材料:热力学稳定性、带隙为1.1-1.45 eV、低mE;对于水分解材料:热力学稳定性、带隙为1.5-3.0 eV、低mE。作者从MP数据中分别给出了满足这些条件的n型半导体和p型半导体(各前100个候选材料),共计466个优异材料。需要注意的是,预测结果只代表mE小于1.5 m0的概率,概率越大并不代表有效质量越低。更多的预测、筛选和解释可以从作者开发的CEEM web界面中实现。
图6:CEEM网站平台
总结展望
在这项工作中,作者提出了一个化学可解释的mE预测平台(CEEM),该平台可以准确有效地进行mE预测,并揭示与mE有关的化学因子。作者还建立了一个实时的在线平台来进行mE的查询、预测和解释,为优异半导体的发现和设计提供了重要的研究工具和思路。此外,CEEM中的晶体图神经网络具有可替代性,在未来可以使用其他具有更高预测性能的AI模型来进行替代,同时兼具化学可解释性,所提出的CEEM为解决诸如预测材料性质和揭示关键化学因子等研究问题提供了指导。
文献信息
Jing Gao, Zhilong Wang, Yanqiang Han, Mingyu Gao, Jinjin Li*. CEEM: a Chemically Explainable Deep Learning Platform for Identifying Compounds with Low Effective Mass. Small 2305918 (2023)
ht-tps://doi.org/10.1002/smll.202305918