一.背景及介绍
二氧化碳(CO₂)是主要的温室气体,主要来自化石燃料燃烧。尽管清洁能源发展迅猛,但化石燃料因资源丰富在未来几十年内仍将是主要能源。为减少CO₂排放,碳捕集与封存(CCUS)技术受到关注,特别是使用多孔材料如金属有机框架(MOFs)进行CO₂捕获。MOFs因其高比表面积、易合成、化学可调性和在气体吸附方面的优势成为CCUS的理想候选。 MOFs是由无机金属离子或簇与有机配体通过配位键构成的高度多孔3D晶体,具有高度有序的孔结构和可调节的孔径大小,其结构单元可灵活调整以定制特性。MOFs的无限组合潜力提供了广阔的探索空间,科学界正通过实验和仿真方法寻找适合特定应用的MOFs。
1.巨正则蒙特卡罗
Quick Start - gRASPAhttps://zhaoli2042.github.io/gRASPA-mkdoc/Quick_Start.html
巨正则蒙特卡罗(GCMC)模拟是一种原子建模方法,如果已知MOF的结构,则可以产生MOF的一般准确的吸附特性。鉴于其准确性,高通量筛选技术已被开发,用于从大型实验室合成或计算机生成的MOF材料库中筛选出高性能候选材料。然而,在处理包含数百万MOF的海量数据集时,耗时且成本高昂。为了克服这一限制,研究者们采用描述符方法,通过构建描述符与MOF性能之间的关系,以快速筛选出具有优异性能的MOF候选材料。
2.晶体学信息文件
晶体学信息文件 (CIF) 是晶体学中用于数据交换和归档的一种行之有效的格式。CIF文件包含了MOF的3D结构信息如化学键、原子和空间坐标等结构信息作为输入,并通过数据驱动的方法自动学习结构特征。可以将CIF文件作为输入,使得深度学习模型能够高精度的预测MOF性能。
3.Resnet算法
Resnet是一种非常流行的深度学习算法,特别是在处理图像识别、分类、检测等任务中表现出色。该算法与传统算法相比最大的亮点:1.具有超深的网络结构。2.提出residual(残差结构)模块。3.使用Batch Normalization加速训练。
在ResNet提出之前,所有的神经网络都是通过卷积层和池化层的叠加组成的。人们认为卷积层和池化层的层数越多,获取到的图片特征信息越全,学习效果也就越好。但是在实际的试验中发现,随着卷积层和池化层的叠加,不但没有出现学习效果越来越好的情况,反而出现随着层数的增加,预测效果反而越来越差。
如图可以看出卷积层数越高,无论训练集还是测试集错误率都将越高。导致出现该现象由于神经网络在反向传播过程中通过链式法则不断地反向传播更新梯度,而当网络层数加深时,梯度在传播过程中会逐渐消失也就说我们所说的梯度弥散。即梯度消失和梯度爆炸问题以及退化问题。
(1)残差学习
传统的CNN网络如左图所示,这是一个普通的、两层的卷积+激活。经过两层卷积+一个激活,我们假定它输出为H(x)。与传统的网络结构相比,ResNet增加了短路连接(shortcut connection)或称为跳跃连接(skip connection) ,如右图所示:
它添加了一个短路连接到第二层激活函数之前。那么激活函数的输入就由原来的输出H(x)=F(x)变为了H(x)=F(x)+x。在RestNet中,这种输出=输入的操作成为恒等映射(Identity mapping)。通过这种操作,使得网络在最差的情况下也能获得和输入一样的输出,即增加的层什么也不学习,仅仅复制输入的特征,至少使得网络不会出现退化的问题。
(2)ResNet的网络结构
ResNet block有两种,一种左侧两层的BasicBlock结构(18、32层),一种是右侧三层的bottleneck结构(50、101、152层),即将两个的卷积层替换为,它通过 conv来巧妙地缩减或扩张feature map维度,从而使得我们的 conv的filters数目不受上一层输入的影响,它的输出也不会影响到下一层。中间的卷积层首先在一个降维卷积层下减少了计算,然后在另一个的卷积层下做了还原。既保持了模型精度又减少了网络参数和计算量,节省了计算时间。
但是,对于短路连接,如果残差映射F(x)的维度与跳跃连接x的维度不同,那咱们是没有办法对它们两个进行相加操作的,必须对x进行升维操作,让他俩的维度相同时才能计算。所以,在resnet结构中,主分支与shortcut的输出特征矩阵shape必须相同,因此,如下图右侧所示虚线残差结构,在捷径分支上通过1x1的卷积核进行降维处理,并通过设置步长为2来改变分辨率,最终实现维度的匹配:
(3)Batch Normalization批量归一化
随着网络的深度增加,每层特征值分布会逐渐的向激活函数的输出区间的上下两端(激活函数饱和区间)靠近,长此以往则会导致梯度消失,从而无法继续训练model。BN就是通过方法将该层特征值分布重新拉回标准正态分布,特征值将落在激活函数对于输入较为敏感的区间,输入的小变化可导致损失函数较大的变化,使得梯度变大,避免梯度消失,同时也可加快收敛。
二.方法实现
1.数据集概述
来源:该数据集由Burner等人开发,包含342,489个假设的MOF结构。
构建:这些MOF由23个无机和175个有机次级构建单元(SBUs)组成,形成了1166个不同的净类型,并进行了50种不同的功能化。利用ToBasCCo算法从底层网络拓扑和SBU列表生成这些结构。 优化:使用通用力场(UFF)对生成的MOF结构进行几何优化,确保结构的合理性。
2.属性评估
GCMC模拟:为了评估MOF的二氧化碳(CO2)工作能力和CO2/N2选择性,采用了巨正则蒙特卡洛(GCMC)模拟。
模拟结果:GCMC模拟确定的属性(如CO2工作能力和CO2/N2选择性)被用作MOF结构的标签,用于训练深度学习模型。
3.CIF预测与数据处理
CIF格式:MOF结构以CIF(晶体学信息文件)格式记录,描述了晶胞的特征,晶胞是晶体结构的基本重复单元。
投影方法:为了将3D结构转换为适合深度学习模型的2D输入,从每个MOF中选择了三个不同视图的原子投影。这些投影是通过将晶胞内的原子投影到由晶胞向量定义的局部坐标系中实现的,并将坐标归一化到0到1之间。
权重分配:在生成投影时,还学习了每个原子的权重,这些权重基于ML回归模型预测的重要性来确定。
上图为如何从 CIF 文件构造 MOF 投影的示意图。(a) 单个原子投射到投影平面上的示意图。红点代表带圆圈的蓝色原子P(x, y, z)在平面
上的投影。(b) 方形投影区域边长的计算方法。(c) 将投影面积坐标转换为方形面积坐标的方法。
4.原子权重
为了提升MOF吸附性能的预测精度,引入了原子权重概念,并通过六种ML模型如梯度提升回归树(GBRT)等。如下图显示,梯度提升回归树(GBRT)模型在所有模型中表现最佳,具有较低的平均绝对误差(MAE)、均方根误差(RMSE)值和较高的相关系数(R²)值,且在训练集分数变化时保持稳定。最终以GBRT为基准,通过分析,确定了各原子对吸附性能的重要性,并据此分配权重,以优化预测结果,特别是在CO₂的捕获和选择性上。
不同重要性的原子分配权重的方法,以应对它们之间可能存在的显著差异。首先是Sort方法,通过排序将原子的权重设为它们的序列号,以此平衡重要性差异。其次是Same方法,作为不使用权重的对照组,所有原子的权重都被设为相同的值。最后是Direct方法,直接将原子的重要性乘以一个比例因子来确定权重。这三种方法各有特点,用于解决不同场景下原子权重分配的问题。
5.算法模型
最终选择使用 pytorch 框架构建了两个 ResNet18 模型来预测 CO2工作能力和 CO2/N2选择性。
实现链接:
https://github.com/982999184/MOF.http://gethub代码
三.结果与讨论
如图使用Sort权重分配法,模型在训练和测试集上均表现优异,R2值接近1,误差(MAE和RMSE)最小,证明Sort在预测CO2工作容量和CO2/N2选择性上效果最佳。
该图显示了 CO2 的热图2工作能力和 CO2/N2使用 Sort 的选择性预测模型。图中不同区域的点密度用不同的颜色表示,最低和最高密度分别以紫色和黄色显示。图中关于Y=X对称可以表明预测结果与真实值之间存在很强的相关性。
深度学习预测作为预筛选工具,通过预测值和阈值将MOF分类,加速筛选过程但存在预测错误风险,可能遗漏高性能MOF或误筛低绩效MOF。通过设定3%的阈值,将MOF分为高性能和低性能两类。红色实线代表实际高性能MOF,红色虚线代表预测的高性能MOF。两者重叠部分为真阳性(TP),即正确预测的高性能MOF。调整阈值可扩大TP区域但会增加筛选时间,需平衡准确性与效率。
在不同筛选比率下,预测为高性能的MOF中实际高性能MOF的回收率。结果显示,随着筛选比率的增加,回收率显著提升。当计算资源充足时,建议筛选总MOF的12%以识别出最多的高性能材料;而当计算资源有限时,筛选总MOF的3%仍能有效回收大多数高性能材料。