量子、原子、连续系统中的科学人工智能(五)

文章目录

目录

5小分子的人工智能78

5.1概述78
5.2分子表示学习80
5.3分子构象生成93
5.4从头开始分子生成96
5.5分子动力学模拟99
5.6学习立体异构和构象灵活性103

在化学中,小分子是指相对较低分子量的有机化合物。它通常包含少量原子,通常少于100个,并具有确定的化学结构。小分子与大分子形成对比,如蛋白质、核酸和聚合物,大分子的尺寸要大得多,通常具有复杂的结构。在小分子学习中使用人工智能方法允许为分子预测和生成任务开发更准确和有效的方法。在本节中,我们考虑人工智能中用于分子学习的几个关键任务,包括分子表示学习、分子构象异构体生成、从头开始分子生成、分子动力学模拟以及立体异构和构象灵活性的表示学习,如图17所示。

5.1 概述

图17:小分子人工智能的任务和方法概述

![[Pasted image 20240710152109.png]]

在本节中,我们考虑五项任务,包括分子表示学习、分子构象异构体生成、从头开始分子生成、分子动力学模拟以及学习立体化学和构象灵活性。
在分子表征学习中,l=0的情况对应于不变方法,包括SchNet[Schütt等人2018]、DimeNet[Gasteiger等人2020]、SphereNet[Liu等人2022f]、GemNet[Gasteiger等人2021]和ComENet[Wang等人2022g]。l=1情况对应于具有1阶向量特征v∈Rd × 3的等变方法,包括EGNN[Satorras等人2021a]、GVP-GNN[Jing等人2021]、PaiNN[Schütt等人2021]、ClofNet[Du等人2022]、向量神经元[Deng等人2021]和EQGAT[Le等人2022]。l≥1的情况对应于具有l阶张量特征hl∈Rd ×(2l+1)的等变方法,包括TFN[Thomas等人2018]、Cormorant[Anderson等人2019]、SE(3)-Transformer model[Fuchs等人2020]、NequIP[Batzner等人2022]、SEGNN[Brandstetter等人2022a]、Equiformer[Liao和Smidt 2023]和MACE[Batatia等人2022b]。
在分子构象异构体生成中,一类方法旨在学习低能几何形状的分布,包括CVGAE[Mansimov等人。2019]、GraphDG[Simm和Hernández-Lobato 2019]、ConfVAE[Xu等人。2021d]、CGCF[Xu等人。2021a]、ConfGf[Shi等人。2021]、GeoDiff[Xu等人。2022b]和扭转扩散[Jing等人。2022]。另一类方法旨在仅预测平衡基态几何形状,包括GeoMol[Ganea等人2021]、EMPNN[Xu等人2023c]和DeeperGCNDAGNN+Dist[Xu等人2021b]。
在从头开始生成分子中,一类方法旨在直接生成3D分子的坐标矩阵,包括E-NFs[Satorras等人。2021b]、EDM[Hoogeboom等人。2022]和GeoLDM[Xu等人。2023a]。另一类方法从SE(3)-不变特征隐式生成3D原子位置,包括EDMNet[Hoffmann和Noé2019]、G-SchNet[Gebauer等人。2019]、G-SphereNet[Luo和Ji 2022]。
在分子动力学模拟中,研究方向包括ML力场[Unke等人。2021c]、增强采样[Sidky等人。2020a]和粗粒化方法[Noid 2023]进行了简要介绍。学习立体化学的重点是通过采用启发式特征(Chemprop[Yang等人2019],MolKGNN[Liu等人2022g])或设计手性信息传递操作(Tetra-DMPNN[Pattanaik等人2020],ChIRo[Adams等人2021])来编码四面体手性。
表示构象灵活性涉及学习构象异构体不变性[Adams等人2021]或显式编码多实例构象异构体集合[Axelrod和Gomez-Bombarelli 2020;庄和凯瑟2020]。

5.2 分子表示学习

目的: 是学习给定输入分子的信息表示
用途: 学习到的表示可以用于各种下游任务,例如分子水平预测和原子水平预测。此外,本节介绍的表示学习模型可以被看作是支持更高级应用的主干,例如药物发现和材料设计。

5.2.1问题设置

分子图与点云

分子可以表示为2D分子图,其包含图拓扑(原子之间的键)以及节点和边特征(包含键的类型,键长,键角等等),或者表示为3D分子图,其另外考虑每个节点的3D坐标。虽然2D表示足以描述分子的化学特性,但分子的3D构型(称为构象异构体)与确定分子的许多实验相关属性相关,例如它的能量或电偶极矩。因此,在本节的剩余部分,我们将重点讨论使用3D分子图的方法。形式上,
我们将一个3D分子表示为一个点云,其中n个原子为M=(z,C),其中z=【z1,…,zn】∈Zn是原子类型向量,C=【c1,…,cn】 ∈ R 3 × n \in R^{3 \times n} R3×n是原子坐标矩阵。为了从该点云获得分子图,然后可以例如从键(2D图拓扑)、从径向距离截止或从k个最近邻添加边。因为不同方法之间的边缘构造不同(下面将进一步讨论),我们将分子称为其点云 M = ( z , C ) \mathcal{M}=(z,C) M=(z,C)

任务公式

我们的目标学习可用于下游预测任务和应用的3D分子的潜在表示。两种类型的下游预测任务是令人感兴趣的:分子水平预测和原子水平预测。对于分子水平的性质预测任务,我们的目标是学习函数 f ( M ) f(\mathcal M) f(M)预测任何给定分子 M \mathcal M M性质y。这里,y可以是实数(回归问题,如构象异构体的能量)、整数(分类问题,如毒性)或张量(如电偶极矢量或惯性张量)。如果目标属性y是标量/张量,则它需要对参考系的变化保持不变/等变。对于原子级性质预测任务,我们的目标是学习函数 f f f预测第i个原子的性质 y i y_i yi ,例如用于分子模拟的每个原子力。同样,y可以是标量或张量目标属性。

5.2.2技术挑战

潜在对称性、理论表达能力、效率
分子不变、原子等变

第一个挑战是,学习的表示对应于物理几何量,并应遵循不同应用的潜在对称性【Bogatskiy等人,2022】。具体来说,对于像能量预测这样的任务,学习的表示应该是SE(3)不变的。这意味着,如果输入分子被旋转或平移,学习的表示应该保持不变。对于像每个原子力预测这样的任务,表示应该是SO(3)-等变的。这是因为如果输入分子旋转,预测目标(例如,力)应该相应地旋转。
另一个挑战是学习表示的理论表达能力【Joshi et al.2023】,它将自己实例化为模型在区分分子的不同3D几何形状方面的实际限制,例如同一分子的对映异构体和不同构象异构体。学习表达性分子表示对于药物设计和分子模拟等应用至关重要【Pozdnyakov等人,2020】。例如,手性药物的对映体可以与其他手性分子和蛋白质非常不同地相互作用。同一分子的不同构象异构体也具有不同的势能和每原子力。
在设计分子表征学习模型时,效率是一个需要考虑的重要因素。高效率支持快速训练和推理,减少计算资源,并增强对大规模真实数据集的可扩展性。

5.2.3现有方法概述

如上所述,2D分子图包含图拓扑以及原始节点和边特征,在此基础上,3D分子图进一步考虑每个节点的3D坐标。任何几何量,如距离、角度和扭转角度,都可以从3D坐标中计算出来。更一般地说,如第2章所介绍的,每个节点都有一个order-l l l l 阶 SE(3)-等变节点特征。从张量阶的角度来看,现有的3D分子表示学习方法可以归类为只有l=0标量类型特征的不变3D图形神经网络(3D GNNs)【Schütt等人2017a史密斯等人2017;Chmiela等人2017;张等2018a,b;Unke和Meuwly 2019;Schütt等人2018;应等人2021;罗等2023b;Gasteiger等人2020;刘等2022f;Gasteiger等人2021;王等2022g】,具有l=1个向量类型特征的等变3D GNNs【Schütt等人2021;景等2021;Satorras等人2021a杜等人2022,2023a;Thlke和Fabritiis 2022】,以及具有高阶l≥1张量特征的等变3D GNNs【Thomas等人2018;Fuchs等人2020;廖和斯米特2023;巴茨纳等人2022;巴塔蒂亚等人2022a,b】。

具体来说,不变方法直接将距离和角度等不变几何特征作为输入,因此,无论输入分子的旋转和平移等变换如何,所有内部特征都保持不变。
相反,等变方法中的内部特征应该随着输入分子的旋转或平移而相应地变化。

体序 body-order

除了张量阶之外,现有的3D GNN层可以从体顺序的角度进一步分类。体序源于势能面(PES)分解为体序函数的线性组合。传统方法【Brown等人,2004年;Braams和Bowman 2009】表明,如图18所示的体序展开导致在近似分子和材料系统的PES时的高精度和快速收敛。作为总分子能量的组成部分,我们可以把原子的局域能量写成体序展开式:
E i = f 1 ( σ i ) + ∑ j 1 N f 2 ( σ i , σ j ) + ∑ j 1 , j 2 f 3 ( σ i , σ j 1 , σ j 2 ) + . . . + ∑ j 1 , . . . , j v f v ( σ i , σ j 1 , . . . , σ j v ) , (91) E_i=f_1(\sigma_i)+\sum_{j_1}^Nf_2(\sigma_i,\sigma_j)+\sum_{j_1,j_2}f_3(\sigma_i,\sigma_{j_1},\sigma_{j_2})+...+\sum_{j_1,...,j_v}f_v(\sigma_i,\sigma_{j_1},...,\sigma_{j_v}),\tag{91} Ei=f1(σi)+j1Nf2(σi,σj)+j1,j2f3(σi,σj1,σj2)+...+j1,...,jvfv(σi,σj1,...,σjv),(91)

其中i是中心原子的索引, j k j_k jk 是一个i的邻居节点的索引,N是原子i的1-hop 邻居总数,σ表示原子状态,包括原子属性和对应下标原子的坐标。通常,在体阶展开中,v体项考虑中心原子及其1跳邻居的V1的所有组合。因此,标准消息传递[Gilmer等人。2017]

m i = ∑ j ∈ N ( i ) M ( h i , h j , h i j ) , h i ′ = U ( h i , m i ) (92) \begin{aligned}&m_{i}=\sum_{j\in\mathcal{N}(i)}M\left(h_{i},h_{j},h_{ij}\right),\\&h_{i}^{\prime}=U\left(h_{i},m_{i}\right)\end{aligned}\tag{92} mi=jN(i)M(hi,hj,hij),hi=U(hi,mi)(92)
主体顺序为2,因为每个消息涉及中心原子和一个邻居。这里N(i)是节点i的相邻节点集,hi j是节点i和节点j之间的边特征,如边长和边类型,U和M是更新和消息函数。虽然标准的消息传递可以通过迭代层进一步聚合来自沿边缘的许多节点的信息,但是这种聚合不同于限制在中心节点的1-hop 内的多体交互。在这一小节中,我们讨论了现有的基于张量阶和体顺序的3D分子表示学习方法,如图19所示。

与原子i直接相连的所有其他原子。  
这里的“1-hop”意味着只考虑与原子i通过一个化学键(即一条边)直接相连的原子,而不考虑那些通过更长的化学键序列(即更多的边)与原子i相连的原子。简而言之,它是指**原子i的第一近邻原子**。
图18:分子能量预测中体序的展开

在这里插入图片描述

图19:分子表征学习现有方法概述

在这里插入图片描述

5.2.4 不变方法

不变方法仅保持不变的节点、边或图形特征,如果输入的3D分子被旋转或平移,这些特征不会改变。如表5所示,不变方法面临着通过考虑多体几何特征来提高其辨别能力和保持其效率之间的权衡。设n和k表示分子中的节点数和平均度数。具体而言,SchNet【Schütt et al.2018】仅将成对距离视为等式(92)所示的以节点为中心的消息传递模式中的边缘特征hi j,导致复杂度为O(nk),主体顺序为2。DimeNet[Gasteiger et al.2020]进一步考虑了以边缘为中心的消息传递的每对边缘之间的角度
m j i = ∑ k ∈ N ( j ) ∖ { i } M ( h j i , h k j , h k j i ) , h j i ′ = U ( h j i , m j i ) , (93) \begin{aligned}&m_{ji}=\sum_{k\in\mathcal{N}(j)\setminus\{i\}}M\left(h_{ji},h_{kj},h_{kji}\right),\\&h_{ji}^{\prime}=U\left(h_{ji},m_{ji}\right),\end{aligned}\tag{93} mji=kN(j){i}M(hji,hkj,hkji),hji=U(hji,mji),(93)
复杂度为 O ( n k 2 ) O(nk^2) O(nk2)。这里 N ( j ) \ { i } \mathcal{N}(j)\backslash\{i\} N(j)\{i} 是节点j除了节点i之外的相邻节点的集合, h k j i h_{k ji} hkji 是节点k、j和i的特征,例如角度 θ k j i θ_{k ji} θkji,并且U和M是更新和消息函数。GemNet【Gasteiger等人2021】进一步考虑了两跳二面角,将体阶数增加到4,复杂性增加到 O ( n k 3 ) O(nk^3) O(nk3)。SphereNet【Liu等人。2022f】计算两个平面之间的局部4体角度。为了降低复杂度,SphereNet没有合并所有可能的角度,而是通过选择参考节点来构建参考平面来减少角度的数量,同时保持 O ( n k 2 ) O(nk^2) O(nk2)复杂度。ComENet【Wang et al.2022g】定义了完整的几何特征,可以区分存在的所有不同的3D分子。具体地,距离和角度d、θ、φ是2体、3体和4体几何特征,并且可以用于识别局部结构。这里,本地结构意味着中心节点及其1-hop邻域。这是因为 d i j , θ i j , ψ i j di j,θ i j,\psi_{ij} dijθijψij 可以确定节点j在以i为中心的局部球坐标系中的相对位置。此外,旋转角度τ进一步捕捉局部结构之间的剩余自由度。因此,ComENet有能力为每个3D分子生成唯一的表示,能够区分自然界中所有不同的3D分子。而且,它遵循式(92)中以节点为中心的消息传递模式,通过在1-hop邻域内选择参考节点,复杂度仅为 O ( n k ) O(nk) O(nk)

除了将等变3D信息转换为距离和角度等不变特征的方法[Schütt等人2018;加斯泰格等人2020;刘等2022f;加斯泰格等人2021;王等2022g】,杜等人。【2022,2023a]提出标量化以获得不变特征。具体来说,标量化将等变特征转换为基于等变局部帧的不变特征。例如,给定一个等变帧(e1,e2,e3),我们可以将3D向量r i j=ci−Cj转换为 ( r i j ⋅ e 1 , r i j ⋅ e 2 , r i j ⋅ e 3 ) (r_{ij}·e_1,r_{ij}·e_2,r_{ij}·e_3) (rije1rije2rije3)。这里e1、e2、e3形成正交基。除了标量化,Du等人[2022,2023a]还使用张量化将不变特征转换为等变特征。因此,这些方法可以保持不变和等变内部特征,并且需要不变操作和等变操作(参见第5.2.5和5.2.6节)来更新内部特征。
等变3D信息转换为距离和角度等不变特征、张量化将不变特征转换为等变特征.

5.2.5 等变方法

等变操作:缩放(逐元素乘法)、求和、线性变换、标量积、向量积。
传播标量和矢量消息来更新标量和矢量特征(式 ( 93 ) (93) (93))。

第一类等变3D GNNs【Satorras等人2021a杜等2022;Schütt等2021;邓等2021;景等2021;Thölke和Fabritiis 2022】使用1阶向量作为中间特征,并通过保证E(3)或SE(3)等变的受限操作集传播消息,如表6所示。让我们用 s ∈ R d s\in \mathbb R^d sRd 表示标量特征,用 v ∈ R d × 3 v\in \mathbb R^{d\times 3} vRd×3 表示向量。如Schütt等人[2021]和Deng等人[2021]中所总结的,可以确保等变的向量v上的操作包括向量s⊙v的缩放、向量v1+v2的求和、向量Wv的线性变换、标量积∥v∥ 2 ^2 2、v1·v2和向量积v1 × v2。这里⊙表示逐元素乘法。注意, v 1 ⋅ v 2 = ∥ v 1 ∥ ∥ v 2 ∥ cos ⁡ θ   a n d   v 1 × v 2 = ∥ v 1 ∥ ∥ v 2 ∥ sin ⁡ θ n ⃗ v_{1}\cdot v_{2}=\|v_{1}\|\|v_{2}\|\cos\theta\mathrm{~and~}v_{1}\times v_{2}=\|v_{1}\|\|v_{2}\|\sin\theta\vec{n} v1v2=v1∥∥v2cosθ and v1×v2=v1∥∥v2sinθn 由上式可知,我们可以使用标量积和矢量积可以隐式地并入角度和方向信息

现有方法使用这些操作通过传播标量和矢量消息更新标量和矢量特征。例如,EGNN【Satorras等人。2021a】使用向量的缩放和向量求和来确保等变。具体地,遵循等式(92)的符号,EGNN层将节点表示hi和节点坐标ci更新为
m i j = ϕ e ( h i , h j , ∣ ∣ c i − c j ∣ ∣ 2 , h i j ) , c i ′ = c i + C ∑ j ≠ i ( c i − c j ) ϕ c ( m i j ) , h i ′ = ϕ h ( h i , ∑ j ≠ i m i j ) , (94) \begin{aligned} m_{ij}& =\phi_{e}\left(h_{i},h_{j},||c_{i}-c_{j}||^{2},h_{ij}\right), \\ c_{i}^{\prime}& =c_{i}+C\sum_{j\neq i}(c_{i}-c_{j})\phi_{c}(m_{ij}), \\ h_{i}^{\prime}& =\phi_{h}\left(h_{i},\sum_{j\neq i}m_{ij}\right), \end{aligned}\tag{94} mijcihi=ϕe(hi,hj,∣∣cicj2,hij),=ci+Cj=i(cicj)ϕc(mij),=ϕh hi,j=imij ,(94)
其中 φ e φ_e φe φ c φ_c φc φ h φ_h φh 表示可学习函数,C是归一化因子。

下面介绍一下 现有的 等变方法-模型

与EGNN不同,EGNN只考虑每个边的单个向量,ClofNet【Du等人。2022】采用由每个边的三个向量组成的完整帧。PaiNN【Schütt等人。2021】进一步包括网络中的线性变换和标量积。GVP-GNN【Jing et al.2021】使用与PaiNN类似的操作,最初设计用于学习蛋白质结构的表示,但也可以适用于分子。矢量神经元【Deng et al.2021】最初是为点云数据设计的,可以应用于分子。它还采用线性变换来实现1阶向量的线性算子。除了线性算子之外,向量神经元还结合了精心设计的非线性、池化和归一化层,这些层是为1阶向量定制的,同时确保了所需的等变。值得注意的是,它使用等变的可学习方向将域划分为两个半空间,然后可以定义诸如ReLU的非线性层来不同地映射这两个空间。除了上述操作之外,EQGAT【Le等人。2022】在消息传递过程中使用交叉乘积来更新等变特征。这实现了1型向量特征之间的相互作用,并允许更全面和更具表现力的特征表示。此外,它使用注意力机制来捕获节点之间的内容和空间信息.

表6:使用 l = 1 l=1 l=1 向量特征的等变方法的比较

包括EGNN【Satorras等人2021a】、ClofNet【Du等人2022】、PaiNN【Schütt等人2021】、GVP-GNN【Jing等人2021】、向量(神经)元【Deng等人2021】和EQGAT【Le等人2022】。这里s∈R^d表示标量特征,v∈Rd × 3表示向量特征。现有方法使用不同的操作来确保等变。
在这里插入图片描述

5.2.6等变方法(l≥1张量特征)(⭐⭐⭐⭐⭐⭐)

注意:这一小节整合了各等变方法的各模块的具体公式

另一类等变方法考虑了第2节中讨论过的高阶(l≥1)特征。该类别下的大多数现有方法使用高阶球面张量的张量积(TP)来构建等变表示,并遵循图20中的一般架构来更新特征,并且在主体顺序和技术细节上有所不同。例如,TFN【Thomas et al.2018】和NequIP【Batzner et al.2022】遵循以节点为中心的消息传递方案【Gilmer et al.2017】,根据来自相邻节点的消息更新节点特征。由于每个消息包含中心原子和一个邻居的信息,这些方法自然具有2的主体顺序。SE(3)-Transformer model【Fuchs等人,2020年】和Equiformer【廖和斯米特,2023年】通过注意机制进一步增强了他们的模型架构。此外,Cormorant【Anderson等人2019】和SEGNNs【Brandstetter等人2022a】在高阶特征上引入了不同的非线性设计

这里我们先给出图20.

图20:高阶等变模型的一般结构

在这里插入图片描述
每个模型都由几个交互块组成,这些交互块在原子之间执行成对的消息传递。这里,Σ表示求和,∥表示特征级联,TP表示特征向量的张量积,MLP表示多层感知器。每个消息、聚合和更新块中使用的具体操作因模型而异,但现有的方法如TFN【Thomas等人2018】、NequIP【Batzner等人2022】、SE(3)-Transformer model【Fuchs等人2020】、Equiformer【Liao和Smidt 2023】、Cormorant【Anderson等人2019】和SEGNNs【Brandstetter等人2022a】都属于这个框架。

通常,高阶等变模型为每个旋转阶数 l ≤ l m a x l≤l_{max} llmax 构建多个特征向量或“通道”。l阶的每个通道具有2l+1的长度。因此,节点i的特征可以由 h i c m l h^l_{icm} hicml 索引,其中l是旋转顺序,c是信道索引,并且m是表示指数( − l ≤ m ≤ l −l≤m≤l lml)。图20给出了高阶等变模型的一般架构,我们在下面描述每个组件。

组件1:非线性函数

为了保持等变,这些模型中使用的非线性函数仅限于在表示索引m中充当标量变换的函数。各种模型使用的非线性函数如表7所示。值得注意的是,Cormorant使用张量乘积作为唯一的非线性操作,SE(3)-Transformer model使用注意力而不是其他模型中发现的非线性激活。

表7:高阶等变模型中使用的非线性函数

在这里插入图片描述
η:R→R是非线性函数,如SiLU或tanh, ∣ ∣ h c ℓ ∣ ∣ = ∑ m ∣ h c m l ∣ 2 ||h^\ell_c||=\sqrt{\sum_m |h^l_{cm}|^2} ∣∣hc∣∣=mhcml2 ,并且 b c l b^l_c bcl是可学习偏差。

组件2:线形层

W ( h ℓ ) = ∑ c ′ W c c ′ ℓ h i c ′ m ℓ . (95) W(\boldsymbol{h}^\ell)=\sum_{c\prime}W_{cc\prime}^\ell\boldsymbol{h}_{ic\prime m}^\ell.\tag{95} W(h)=cWcchicm.(95)
权重在m维度上是恒定的,这是保持等变所必需的。可选地,可以为l=0特征添加偏置。

组件3:卷积滤波器

这些模型通常将卷积滤波器构建为可学习径向函数和球谐函数的乘积。几种型号使用的具体滤波器如表8所示。

表8

高阶等变模型中使用的卷积滤波器。这里, d i j d_{ij} dij 是节点之间的距离。
在这里插入图片描述

组件4:消息

然后使用张量乘积构建成对消息。所有方法都从获取卷积过滤器和节点特征的张量乘积开始,然而,一些方法进一步增强了这些消息。在每个模型中计算消息的具体方程如表9所示。通常,l1和l2类型特征向量的张量乘积在所有旋转阶数 ∣ l 1 − l 2 ∣ ≤ l 3 ≤ l 1 + l 2 |l_1-l_2|≤l_3≤l_1+l_2 l1l2l3l1+l2 下产生输出。第2.4节更详细地描述了张量乘积运算。

表9

高阶等变模型中的消息计算方程。φ(·)=g(W(·))。||表示特征的级联。为了简洁起见,省略了l、c和m消息索引。
在这里插入图片描述

组件5:聚合

对于每个原子,消息然后在相邻原子上聚合。对于所有模型,都使用和聚合,然而,SE(3)-Transformer model和Equiformer首先使用注意力对传入消息进行加权。每个模型使用的聚合函数如表10所示。注意SE(3)-Transformer model使用点积注意力。Equiformer使用更强大的MLP注意力,然而,为了保持等变,仅使用l=0特征来计算注意力分数。

表10:高阶等变模型中使用的聚合函数

α_{ij}是注意力分数,得到的聚合消息 m i m_i mi .
在这里插入图片描述

组件6:更新

最后,聚合消息用于更新每个节点的特征。各模型使用的具体更新函数如表11所示。在TFN和SE(3)-Transformer model中,层之间不使用残余连接。然而,后来的工作表明,为了保留原子类型等化学信息,这种联系是至关重要的。

表11:高阶等变模型中使用的更新函数

在这里插入图片描述

5.2.7 高阶体方法

见量子、原子、连续系统中的科学人工智能的 P 88 P_{88} P88.

5.2.8 模型输出

不变和等变方法都应该能够处理不同任务和应用的对称性。
不变方法可以

  1. 直接产生SE(3)-不变特征;
  2. 也可以基于最终的不变特征实现一些等变特征。

例如,为了预测SO(3)-等变的每个原子力,不变方法首先预测能量E,然后使用能量w.r.t的原子位置梯度 f i = − ∂ E ∂ c i f_i=−\frac{\partial E}{∂c_i} fi=ciE 来计算每个原子的力,这可以确保能量守恒, 这里 c i c_i ci 是节点i的坐标。
等变方法也可以使用预测的能量来计算力或直接预测力。对于其他等变预测目标,如第4章中讨论的哈密顿矩阵,不变模型需要额外的操作来确保等变,这使得等变方法更简单,更适合此类任务。

表16:各数据集生成结果(目标)

QM9:预测能量、电子和热力学性质
Molecule3D:预测3D几何构型、能量和电子性质
在这里插入图片描述
表:QM9【Ramakrishnan等人2014】、MD17【Chmiela等人2017】、rMD17【Christensen和Von Lilienfeld 2020】、MD17@CCSD(T)【Chmiela等人2018】、ISO17【Schütt等人2018】和Molecule3D【Xu等人2021b】数据集的统计。我们总结了预测任务和3D分子样本的数量(#个样本)、一个分子中的最大原子数(最多#个原子)和一个分子中的平均原子数(平均#个原子)。

5.2.9 数据集与基准

5.2.10 开放的研究方法

  1. 从2D和3D信息中学习:一个方向是分子的2D和3D信息的联合训练,2D信息不够,3D实现难。

  2. 表达能力和计算效率:表达能力(Expressivity)是指模型能够捕捉和表示数据中复杂关系的能力。

在理论方面,一个挑战是开发可证明的表达性3D GNNs以完整或普遍的方式捕捉原子之间的几何相互作用(三维位置、距离、角度等几何属性决定的相互作用力)【Pozdnyakov等人,2020年】,如第2.9.3节所述。为了实现这一目标,Joshi等人。[2023]在区分非同构几何图方面提供了几何GNNs表现力的理论上限,并表明传播几何信息的等变层通常比不变层更具表现力。他们确定了构建最强大的等变GNNs的关键设计选择:(1)深度,(2)张量阶,和(3)标量体阶。如本节所强调的,体阶控制网络捕获节点邻域中局部几何形状的能力,而较高的张量阶使网络在表示几何信息时具有较高的角分辨率。最后,网络深度控制架构的感受野,并且在许多当前的等变架构中,增加的深度也隐含地导致增加的体阶。

  1. 不变与等变消息传递:
    不变GNN比等变GNN更具可扩展性,并且在处理全连接图【Joshi 2020】和预先计算非局部特征【Gasteiger等人2021;王等2022g】。类似地,一些不变GNNs构建规范参考系,将等变量转换为标量特征【Du等人2022;Duval等人2023】,允许网络中所有中间表示的非线性。研究不变和等变信息传递之间的权衡是分子表征学习研究的另一个富有成效的途径。

5.3 分子构象生成

如第5.2节所述,3D分子几何形状在分子表征学习中的作用是不可或缺的,因为与单独使用2D图相比,它们显著提高了性质预测的准确性。3D信息的这种增强归因于分子的物理构型在很大程度上影响其众多性质的事实。例如,由于分子结构的变化,具有相同原子组成的异构体可以具有非常不同的熔点。在免疫学中,抗体结合位点的形状,特别是互补决定区(CDR),精确地决定了它们可以识别和结合的抗原,这对于免疫应答至关重要。因此,当从事诸如分子性质预测、分子动力学和分子-蛋白质对接等现实世界应用时,分子的空间信息是非常理想的。然而,通过密度泛函理论(DFT)获得精确的3D几何形状由于其高计算成本而具有显著的挑战性,从而限制了3D分子几何形状的广泛应用。因此,使用机器学习模型来重建3D分子几何形状成为一种有前途的替代方案,提供了降低计算成本并使3D几何形状更容易获得的潜力。
总结:要用机器学习模型构建3D分子几何形状

5.3.1问题设置

设分子中原子总数为n。2D分子表示为 G = ( z , E ) \mathcal G=(z,E) G=(z,E),其中 z = [ z 1 , . . . , z n ] ∈ Z n z=[z_1,...,z_n]\in \mathbb Z^n z=[z1...zn]Zn 表示原子类型向量,E中的每个 e i j ∈ Z e_{ij}\in \mathbb Z eijZ 表示节点i和j之间的边类型。对于给定的2D分子G,相应的3D分子进一步需要3D几何形状 C = [ c 1 , … , c n ] ∈ R 3 × n C=[c_1,…,c_n]\in \mathbb R^{3\times n} C=[c1cn]R3×n,其中ci表示第i个原子的3D坐标。C的一种形式与势能相关联,它是从对应于玻尔兹曼分布的势能面取样的,这表明在给定环境中,较低势能的状态更有可能。对应于较低能量或高概率状态的几何形状通常更稳定,因此更有可能被实验观察证实。最小化势能或最大化分布的几何形状,称为平衡基态几何形状,是最稳定和最关键的几何形状。

分子几何重建的问题可以分为两个不同的任务。
第一个任务称为3D生成模型,涉及训练生成模型,表示为 f G f_\mathcal G fG,目的是在给定条件2D分子图G的情况下理解低能几何的分布 p ( C ∣ G ) p(C|\mathcal G) p(CG)
另一方面,被称为3D几何预测的第二任务寻求训练预测模型 f P f_P fP,该预测模型 f P f_P fP 能够基于其对应的2D图G直接估计平衡基态几何 C e q C_{eq} Ceq

5.3.2 技术挑战

从2D分子图重建3D分子几何结构提出了三个主要挑战。
第一个挑战是确保获得的构象异构体在3D空间中几何有效。例如,由于GNNs固有的排列不变性,对称图节点可能具有相同的嵌入,从而导致无效的几何形状。因此,区分这些对称原子并强制它们的重建坐标是不同的是至关重要的,因为原子不应该在3D空间中重叠。此外,现有工作【Simm和Hernández-Lobato 2019;徐等2021b】首先考虑距离几何(DG),然后基于距离矩阵重建原子坐标。在这种情况下,由于导出的距离矩阵可能无法构成有效的欧几里得距离矩阵(EDM),确保原子坐标的3D几何有效性变得特别具有挑战性。除了保持重建构象异构体的3D几何有效性之外,
第二个挑战是满足施加在构象异构体片段上的化学有效性。例如,芳环或π键将它们的所有原子限制在平面上,而许多大环和小环是非平面的【Wang等人。2020b】。期望具有遵循这种量子规则并且在化学上有效的重构几何结构。
重建3D分子几何结构的另一个挑战来自几何结构密度函数的固有对称性。给定零质心(CoM)的初始系统【Xu等人。2022bKöhler等人。2020】,构象异构体的生成几何分布通常被建模为不变分布,以便绘制关于地面真实分布的渐近无偏样本【Köhler等人。2020】。具体来说,我们必须确保重建的构象异构体服从SE(3)不变的位置分布。设旋转矩阵 R ∈ S O ( 3 ) ⊂ R 3 × 3 R∈SO(3) \subset R^{3\times3} RSO(3)R3×3 和平移向量t∈R3和1∈Rn,SE(3)-不变位置分布要求p(RC+t1T G)=p(C G)。换句话说,旋转或平移的构象异构体被认为是相同的,因为几何重建独立于旋转和平移。

5.3.3 现有方法

基于生成的方法
虽然有太多的分子生成模型可用,但本节专门关注那些代表该领域最近和重大贡献的模型。许多早期的生成模型,如CVGAE【Mansimov等人。2019】、GraphDG【Simm和Hernández-Lobato 2019】、ConfVAE【Xu等人。2021d】和CGCF【Xu等人。2021a】是基于变分自编码器(VAE)或流模型作为其基础理论而开发的。

另一方面,目前最先进的生成模型大多依赖于具有E(3)-等变/不变模块的分数匹配和概率去噪扩散模型。例如,ConfGF【Shi等人。2021】开发了一个3D生成模型,该模型使用分数匹配,并通过计算从位置到距离的链式规则导数来获得分数。为了生成分子中每个原子的位置,ConfGF应用E(3)-等变模型在采样期间更新原子位置。GeoDiff【Xu等人2022b】通过结合零中心E(3)-等变扩散概率模型进一步扩展了ConfGF的能力。虽然这两种方法都可以直接生成分子的3D坐标,但它们没有考虑化学约束,例如所有原子都在同一平面的芳环。因此,它们可能产生化学上无效的构象异构体。
相比之下,扭转扩散【Jing等人。2022】仅采用SE(3)不变扩散模型来调整构象异构体的扭转,同时保留RDKit生成的所有局部结构,如键长和角度。通过这样做,它利用了RDKit引入的化学知识。然而,这种方法严重依赖于RDKit生成的构象异构体,并且不能细化局部环结构,例如大环或小的非平面环。基于扭转扩散,DiffDock【Corso等人。2022】将蛋白质-配体对接推进为以蛋白质为条件的构象异构体生成过程。我们在第8章中描述了DiffDock的细节。

RDKit:开源化学信息学软件. 网址:RDKit

表18:几种代表性的3D分子构象生成方法的3D输出、模型架构和分布对称性总结

在这里插入图片描述
在各种方法中,CVGAE【Mansimov等人。2019】、GraphDG【Simm和Hernández-Lobato 2019】、ConfVAE【Xu等人。2021d】使用条件变分自动编码器来生成分子构象异构体,其中CVGAE直接生成3D坐标,GraphDG和ConfVAE生成分子构象异构体的原子间距离
本着ConfVAE的精神,CGCF【徐等人。2021a】通过利用流动生成模型生成原子间距离
此外,ConfGf【Shi等人。2021】和GeoDiff【Xu等人。2022b】采用零中心E(3)-等变模型直接生成3D坐标,并实现E(3)-不变生成分布
相反,扭转扩散【Jing等人。2022】应用SE(3)不变扩散模型专门生成扭转,保留由RDKit生成的局部结构,如键长和角度。
此外,GeoMol【Ganea等人2021】、DeeperGCN-DAGNN+Distance【Xu等人2021b】和EMPNN【Xu等人2023c】实现了分子构象异构体生成的预测策略

基于预测的方法
或者,其他现有工作将该任务公式化为预测任务,其重点是预测平衡基态构象异构体。一个这样的例子是GeoMol【Ganea等人2021】,它采用具有几何约束的消息传递神经网络(MPNNs)来预测局部结构,以生成不同的构象异构体。为了确保几何有效性,GeoMol应用了一种匹配损失,通过在对称节点的所有可能排列中搜索与地面真实的最佳匹配子结构来有效地区分对称原子。另一种值得注意的方法是DeeperGCN-DAGNN+Dist,如【Xu等人2021b】中提出的。该方法旨在预测完整的距离矩阵,然后在下游任务中直接使用距离矩阵,因为成对距离隐含地提供了3D信息。相反,EMPNN【Xu等人。2023c】使用节点索引来打破节点对称性,并显式输出基态构象体的几何有效3D坐标。

为了全面概述该领域的各种生成和预测方法,我们在上面的表18中总结了代表性方法。

5.4 从无到有的分子生成

在第5.2节中,我们研究了给定分子的性质预测问题。然而,一些其他现实世界的问题,如为药物设计新分子,需要我们对反向过程进行建模,即获得具有给定性质的目标分子。在化学空间中穷尽地搜索靶分子是不可能的,因为候选分子的数量可能非常大,例如,估计大约有1033个药物样分子【Polishchuk等人,2013年】。最近,深度生成学习的重大进展促使许多研究人员用先进的深度生成模型生成新的分子,包括变分自编码器(VAE)【Kingma和Welling 2014】、生成对抗网络(GANs)【Goodfellow等人2014a】、流模型【Rezende和Mohamed 2015】和扩散模型【Ho等人2020】。一些早期研究【金等2018;游等2018a;Shi等人2020】以2D分子图的形式生成分子。然而,这些方法不会生成分子中原子的3D坐标,因此无法区分具有相同2D图形但不同3D几何形状的分子,如空间异构体。实际上,许多分子特性,如量子特性或生物活性,是由分子的3D几何形状决定的。因此,在本节中,我们将重点关注3D分子生成问题。

5.4.1 问题设置

我们将具有n个原子的3D分子表示为M=(z,C),其中z=[z1,…,Zn]∈Zn是原子类型向量,C=[c1,…,cn]∈R3 × n是原子坐标矩阵。这里,对于第i个原子,zi是它的原子序数,ci是它的3D笛卡尔坐标。我们的目标是用生成模型学习3D分子空间上的概率分布p,并从p中采样新的3D分子。请注意,与第5.3节中讨论的分子构象异构体生成或预测问题不同,我们不像2D分子图那样从任何条件输入生成3D分子,而是从头开始生成它们。

5.4.2 技术挑战

从头开始生成3D分子的核心挑战在于在生成3D原子位置时实现SE(3)不变性。换句话说,生成模型应该为M和M’分配相同的概率,如果M’可以通过在3D空间中旋转或平移M来获得。
通常,有两种策略来生成3D分子结构。
首先,生成模型可以直接使用坐标矩阵作为生成目标或输出。但挑战在于坐标矩阵的概率建模应该仔细设计,以确保对SE(3)变换的不变性
其次,生成模型可以将一些SE(3)不变的3D特征(例如距离或角度)作为生成目标,而不是直接生成坐标。该策略消除了在生成模型中明确考虑SE(3)不变性的必要性,但要求生成的3D特征具有有效值和完整的3D结构信息,以便可以从中重建3D原子坐标。

5.4.3 现有方法

直接生成3D分子坐标矩阵的三种代表性方法是E-NFs【Satorras等人2021b】、EDM【Hoogeboom等人2022】和GeoLDM【Xu等人2023a】。它们采用多种策略来实现E(3)-不变性,其中E(3)是SE(3)的超集,包括平移、旋转和反射。具体来说,为了消除平移的自由度,在传递到生成模型之前,通过从坐标矩阵的每一列减少质心,即所有原子上的平均3D坐标,任何3D分子总是以零为中心。换句话说,由这些方法捕获的概率密度仅在具有零质心的坐标矩阵上是非零的。此外,零中心坐标的概率密度由其相应的潜在变量计算,这些潜在变量服从无CoM高斯分布【Köhler等人。2020】.在数学上,无CoM高斯分布确保了概率密度对旋转和反射不变。
流动和扩散模型分别用于在E-NFs和EDM中的零中心坐标矩阵和潜在先验变量之间进行映射。
GeoLDM进一步提出首先将零中心原子编码到零中心潜在空间中,其中每个原子都用潜在不变特征和潜在等变坐标来表示。然后,GeoLDM通过潜在扩散模型学习潜在变量和先验高斯分布之间的映射,而不是原始坐标矩阵【Rombach等人2022】。

与E-NFs和EDM相反,一些方法从SE(3)-不变特征隐式生成3D原子位置
为了表示3D分子的完整结构信息,坐标矩阵的一个替代方案是欧几里得距离矩阵,其包含分子中每个成对原子之间的距离。EDMNet[Hoffmann和Noé2019]是第一个研究以欧几里得距离矩阵形式生成3D分子结构的工作。在EDMNet中,各种新颖的损失函数用于训练GAN模型以生成有效的欧几里得距离矩阵,从而可以成功地重建3D笛卡尔坐标。
与EDMNet这样的一次性方法不同,其他方法采用自回归程序,通过逐步将原子放置在3D空间中来生成3D分子。自回归方法的两个代表是GSchNet[Gebauer et al.2019]和G-SphereNet[Luo和Ji 2022]。在这两种方法中,通过多个步骤生成完整的3D分子,并且在每个生成步骤中仅生成一个新原子并将其放置到参考原子的局部区域。具体来说,G-SchNet通过从自回归生成模型预测的距离分布中采样,将新原子放置到参考原子的候选网格位置之一。
另一方面,G-SphereNet通过自回归流模型生成距离、线角和扭转角,以确定新原子相对于参考原子的相对位置。由于使用了扭转角,GSphereNet捕获了SE(3)不变分布。

我们在表19中总结了所讨论的3D分子生成方法的关键信息。注意,在这些讨论的方法中,只有EDM可以将分子性质作为条件输入并执行面向性质的生成,而其他方法只能使用隐式策略来生成具有期望性质的分子,例如优化潜在表示。其他一些方法可能会考虑更复杂的条件输入,如蛋白质口袋【Ragoza等人2022;刘等2022c】,在第8节中介绍。

在这里插入图片描述
在这些方法中,E-NFs【Satorras等人。2021b】、EDM【Hoogeboom等人。2022】和GeoLDM【Xu等人。2023a】直接生成分子中原子的3D坐标。它们通过零中心坐标和使用无CoM高斯分布来实现E(3)-不变。另一方面,EDMNet【Hoffmann和Noé2019】、G-SchNet【Gebauer等人。2019】和G-SphereNet【Luo和Ji 2022】通过对旋转和平移不变的距离、角度和扭转角隐式生成原子的3D位置。

5.4.4 数据集和基准

两个基准数据集,QM9[Ramakrishnan等人。2014]和GEOM-Drugs[Axelrod和GómezBombarelli 2022],通常用于评估不同3D分子生成方法的性能。
QM9数据集从GDB-17【Ruddigkeit等人,2012年】数据库中收集了超过13万个有机小分子。QM9中的所有分子最多有9个重原子(29个原子包括氢原子),任何重原子的元素类型总是碳、氮、氧和氟中的一种。QM9中分子的3D原子坐标通过高斯软件在量子化学的B3LYP/6-31G(2df,p)水平上计算【Frisch等人,2009】。
除了QM9,GEOM-Drugs是另一个数据集,用于评估3D分子生成方法在生成更大、更复杂的药物分子方面的性能。它收集了430k个多达181个原子的类药物分子。GEOM-Drugs中分子的3D原子坐标首先由RDKit【Landrum 2010】初始化,然后由ORCA【Neese 2012】和CREST【Grimme 2019】软件优化。在这两个数据集中,分子中原子的3D坐标都是通过DFT计算的。

5.4.5 开放的研究方向

SE(3)对称的实现 和 生成的3D分子在一些局部结构的3D位置中要满足化学约束

尽管近年来已经提出了许多3D分子生成方法,但是存在一些阻碍它们生成实际有用的3D分子的挑战。首先,大多数现有方法考虑的是E(3)对称,而不是SE(3)对称,因此它们对反射也是不变的。在许多生物和化学应用中应该避免这种不变性,其中生成模型有望区分具有不同手性的3D分子。
此外,生成的3D分子在一些局部结构的3D位置中满足化学约束是至关重要的,使得它们在化学上有效且可合成。例如,苯环中的所有原子被限制在同一平面中。然而,设计满足所有化学约束的生成模型仍然具有挑战性且探索不足。

5.5 分子动力学模拟

自20世纪50年代发展以来,分子动力学(MD)模拟已经发展成为一种成熟且有价值的技术,用于获得对广泛的物理和生物系统的原子洞察力[Alder和Wainwright 1959;拉赫曼1964;弗伦克尔和斯密特2001;石里克2010;塔克曼2010]。通过MD模拟,研究人员可以有效地表征系统底层的势能面(PES),并根据由此产生的MD轨迹计算宏观水平的可观测性。这些可观测值在确定重要的材料特性方面发挥着至关重要的作用,如电池材料的扩散率[Webb等人,2015年],并为物理机制提供了有价值的见解,如蛋白质折叠动力学[Lane等人,2011年;Lindorff-Larsen等人,2011年]。然而,MD模拟的实际适用性由于其高计算成本而受到限制。这种成本由两个主要因素引起:首先,在许多要求高精度的应用中,必须使用量子化学方法来确定能量和力,这涉及到近似求解计算昂贵的薛定谔方程(第4节)。其次,在研究聚合物和蛋白质等大型复杂系统时,通常需要进行跨越纳秒到毫秒的广泛模拟来研究特定的物理过程,而数值稳定性所需的时间步长通常在飞秒级别。进行这种模拟,即使使用不太精确的经典力场,也会招致大量的计算费用。近年来,机器学习(ML)方法已经显示出显著加速MD模拟的前景。
本节简要概述了应用于MD模拟的ML方法的一些前沿,包括ML力场、ML增强采样方法和基于ML的粗粒度方法。虽然我们将这一小节归类为小分子的人工智能,但重要的是要注意,MD模拟是一种通用的计算技术,适用于各种分子,包括有机小分子、生物大分子和材料。

图21:用机器学习模拟分子动力学

在这里插入图片描述
为了取代昂贵的量子力学计算,

  1. 学习ML力场以从原子坐标预测能量和力
  2. 有了学习到的力场,我们可以通过将其与适当的恒温器/气压计配对来模拟MD。
  3. 根据模拟的轨迹,可以计算感兴趣的属性。

5.5.1 问题的设置

模拟分子动力学涉及积分牛顿运动方程: d 2 x / d t 2 = m − 1 f ( x ) d^2x/dt^2=m^{-1}f(x) d2x/dt2=m1f(x) 。这种积分所需的是通过对势能函数进行微分而获得的: F ( x ) = − δ E ( x ) / ∂ x F(x)=−\delta E(x)/∂x F(x)=δE(x)/x .这里,x表示状态构型,m表示原子的质量,F和E分别表示力和势能函数。为了复制期望的热力学条件,例如恒定的温度或压力,选择适当的恒温器或气压调节器以用附加变量扩充运动方程。这些条件的选择取决于手头的具体系统和任务。
通过模拟,生成位置 { x t ∈ R N × 3 } t = 0 T \{x_t∈R^{N × 3}\}^T_{t=0} {xtRN×3}t=0T(和速度)的时间序列,其中t表示时间顺序指数,T表示模拟步骤的总数,N是分子中的原子数。根据时间序列,可以计算可观测值O(xt),例如径向分布函数(RDF)、维里应力张量、均方位移(MSD)和相对于关键反应坐标的自由能面。这些可观测值在研究各种物理和生物系统的结构和动力学特性中起着至关重要的作用。图21总结了使用ML力场(FFs)模拟MD轨迹的流水线。

获得给定状态的力和能量需要经典或量子力学计算。虽然量子力学计算提供了更高的精度,但它在计算上是昂贵的。为了加速MD模拟,一种策略是拟合从原子坐标预测F(x)和E(x)的机器学习(ML)模型。这些模型被称为机器学习力场,使用训练数据集训练以近似原子力和能量:{xi,Fi,Ei} i = 1 N d a t a ^{N_{data}}_{i=1} i=1Ndata,其中xi∈ R N × 3 R^{N × 3} RN×3,Fi∈ R N × 3 R^{N × 3} RN×3,Ei∈R,Ndata是数据点的数量。然后,通过取代用于获得能量和力的计算昂贵的量子力学计算,可以使用所学习的力场来模拟分子动力学

除了ML力场之外,重要的是要注意MD模拟的主要目标是提取表征系统特性的宏观可观测值。由于分子动力学的混沌性质,精确地恢复给定初始状态的轨迹既不实际也没有必要。因此,许多方法集中于增强现有的力场,以实现更有效的采样或粗粒度,旨在降低系统的复杂性。采样和粗粒度方法的设计通常受到感兴趣的特定系统/可观察物的影响。

5.5.2 技术挑战

首先,分子系统的势能面(PES)通常是高度不光滑的。复杂的原子相互作用需要原子环境的表达描述符。理想情况下,应尊重能量(E(3)-不变)和力(E(3)-等变)的物理对称性。表达模型架构是设计精确ML力场的关键技术问题。复杂的PES在有效采样(一)不同构象方面也提出了技术挑战,这激发了对增强采样方法的研究。其次,虽然模拟时间步长通常在飞秒级别,但感兴趣的可观察值通常可以在更长的时间尺度上。因此,实际有用的MD轨迹需要数百万到数十亿步的模拟(二)来采样动力学。这种实际需求对学习力场的效率、稳定性和准确性提出了挑战。如果不实际运行昂贵的模拟,很难预测模拟设置中学习的力场的性能。最近的工作表明,较低的力/能量预测误差 ----- 但是并不意味着更稳定和准确的模拟或可观察的计算【Fu等人。2023a】。全原子MD模拟和感兴趣的实际可观测值之间的尺度差异也激发了粗粒度方法的研究。特别地,由于上述两个挑战的组合,稀有原子事件的采样是一个重要但困难的问题:复杂势能表面可能在不同的局部极小值之间具有高能垒,使得稀有事件如不同亚稳态之间的跃迁难以采样。因此,这些转变发生在比学习力场作用的时间尺度长得多的时间尺度上。

总之,学习MD模拟的技术挑战根源于原子系统势能面的固有复杂性以及计算大时空尺度的能量和力的计算复杂性

注:
在物理学和数学中,特别是在处理空间对称性和变换时,E(3) 和 SE(3) 是两个重要的概念,它们分别代表了不同的空间变换群。
E(3) 的含义
E(3) 通常指的是欧几里得群(Euclidean group)在三维空间中的表示。这个群包含了三维空间中的所有平移和旋转变换,但不包括缩放(即保持长度和角度不变的变换)。因此,E(3) 可以看作是平移群和旋转群的半直积(semi-direct product),即 E ( 3 ) = R 3 ⋊ S O ( 3 ) E(3)=R^3⋊SO(3) E(3)=R3SO(3),其中R^3表示三维平移,SO(3) 表示三维旋转群(即所有保持原点不动、长度和角度不变的正交变换的集合)。
在物理对称性的上下文中,提到“应尊重能量(E(3)-不变)和力(E(3)-等变)”时,意味着物理定律或系统的某些性质(如能量和力)在E(3)变换下保持不变(不变性)或按特定方式变化(等变性)。

SE(3) 的含义
SE(3) 是特殊欧几里得群(Special Euclidean group)在三维空间中的表示。与E(3)不同,SE(3)不仅包含了平移和旋转变换,还允许缩放变换(但保持手性不变,即不允许镜像反射)。因此,SE(3) 可以看作是平移、旋转和均匀缩放的组合,通常表示为 SE(3)=R^3⋊SO(3)×R+,其中 R+表示正实数集,代表缩放因子。

E(3) 和 SE(3) 的区别

变换类型:E(3) 只包含平移和旋转变换,而 SE(3) 除了平移和旋转变换外,还包括缩放变换。
物理意义:在物理学中,E(3) 对称性通常与保持长度和角度不变的系统相关,而 SE(3) 对称性则可能涉及到可以缩放的系统。然而,在许多物理理论中(特别是相对论和量子力学),通常更关注 E(3) 对称性,因为缩放(特别是非均匀缩放)可能会破坏物理定律的某些基本性质。
数学结构:从数学上讲,SE(3) 是 E(3) 的一个扩展,它包含了更多的变换类型。
综上所述,E(3) 和 SE(3) 在处理三维空间中的变换时扮演着不同的角色,具有不同的物理和数学意义。

5.5.3 现有方法(⭐⭐⭐⭐⭐)

ML力场[Behler和Parrinello 2007Khorshidi和Peterson 2016;史密斯等人2017;Artrith等人2017;Chmiela等人2017,2018;张等人2018a,b;托马斯等人2018;贾等人2020;加斯泰格等人2020;舍恩霍尔茨和库布克2020;诺埃等人2020;多尔等人2021;科瓦奇等人2021;温克等人2021;帕克等人2021;索尔克和法布里蒂斯2022;加斯泰格等人2021;弗里德里希等人2021;李等人2022d;巴茨纳等人2022;李等人2022b;高本等人2022b;Musaelian等人2023a]已经获得了令人难以置信的精度和数据/计算效率,这使得它们有望在许多应用中取代量子力学计算。已经探索了不同的模型架构,包括基于核的方法、前馈神经网络和消息传递神经网络。这些模型的设计尊重物理对称原理,包括能量的E(3)不变性和力的E(3)等变。许多分子表征学习研究都是由MD应用激发的。
第5.2节对其进行了更多详细介绍。为了增强采样过程,机器学习(ML)方法已被用于揭示关键的反应坐标[Sidky等人2020a Mehdi等人2023](也称为集体变量)。这些是实施特定高级采样技术的先决条件,如元动力学[Laio和Parrinello 2002Barducci等人,2008年]。识别反应坐标也可以在阐明分子动力学(MD)过程中发挥重要作用,特别是在拟合马尔可夫状态模型以研究蛋白质分子亚稳态之间发生的转变方面[Mardt等人,2018]。此外,ML技术正被用于学习粗粒度力场[Husic等人2020;王等人2019b]、粗粒度和潜在空间模拟器[傅等人2022b;Vlachas等人2021;Sidky等人2020b]和粗粒度映射[Wang和Gómez-Bombarelli 2019;王等人2022l;科勒等人2023]。粗粒度空间中的模拟通常更有效,但涉及精度的权衡。学习粗粒度映射包括发现能够保留分子状态的基本信息的粗粒度方案,以及促进粗粒度反向映射(预测对应于粗粒度状态的细粒度状态的分布)。

重要的是要承认,上述研究领域在各自的领域拥有广泛的历史,并继续蓬勃发展。这里探讨的材料和参考资料只是提供了一个非常初步的概述。为了更深入地了解,我们引导感兴趣的读者对这些主题进行更详尽的调查[Sidky等人2020a Unke等人2021c NOID 2023]。

5.5.4 数据集和基准

小分子【Chmiela等人2017,2023;Eastman等人2023】一直是ML力场开发的流行试验台。广泛使用的MD17数据集[Chmiela等人,2017年]包含从路径积分分子动力学模拟生成的八种小分子的MD数据,更新版本MD17@CCSD(T) [Chmiela等人,2018年]和 rMD17[Christensen和Von Lilienfeld,2020年]使用更高水平的理论,更加准确。其他感兴趣的系统包括本体水【Zhang等人,2018a】、各种结晶固体材料(例如,锂离子电解质【Batzner等人,2022】)和无定形材料(例如,聚合物【Fu等人,2022b】)。对于这些数据集,测试数据集上的力和能量预测误差是现有工作中常见的基准测试策略。一些论文【Stocker等人2022;张等2018a;Batzner等人2022】还研究了模拟的稳定性和某些可观测性,如原子间距离的分布、径向分布函数、扩散系数等。特别是,最近的一项基准研究【Fu等人。2023a】在广泛的系统和任务上比较了一系列现有的ML力场,发现力/能量预测性能和模拟性能之间存在不一致,这表明使用力和能量预测作为唯一的评估协议是无效的。

对于生物分子,现有研究的一个重点是恢复它们相对于关键反应坐标的自由能面(FES)。丙氨酸二肽[Noé等人。2020]是一个标准的基准分子,因为它的反应坐标和FES很好理解:有两个主要的构象自由度:C-N-C α-C的二面角φ和N-C α-C-N的二面角ψ,在这两个反应坐标上有六个FES最小值。许多论文都对此进行了研究,重点是玻尔兹曼分布采样【傅等人2023a】、跃迁路径采样【Holdijk等人2022】和粗粒度MD研究【王等人2019b;弗拉查斯等人2021;格林和琼斯2021】。更复杂的生物分子,如小蛋白Chignolin,也在现有工作中进行了研究【Husic等人2020;王等2022l】。对于材料,过去的工作研究了锂离子电池电解质,如LiPS【Batzner等人。2022】和固体聚合物电解质【Fu等人。2022b】,同时将径向分布函数和锂离子扩散率视为关键可观察值。最后,我们注意到MD模拟是一个广泛的领域,有不同的应用和可用的数据集。我们只介绍了一些用ML方法研究的最流行的方法。

5.5.5 开放研究方向

当前机器学习(ML)力场的精度和有效性为进一步改进提供了充足的机会。主要地,现有的方法建立在跨具有预定半径截止形成的图的基于内核的或消息传递方案上。提高ML力场熟练程度的一个有前途的途径包括准确有效地捕捉长程相互作用。鉴于ML力场背后的主要动机是加快分子动力学(MD)模拟,设计优先考虑计算效率和并行化而不影响准确性的神经架构至关重要。例如,现有的工作已经探索了严格的局部ML潜力【Musaelian等人。2023a】。在实践中,当应用ML力场时,模拟不稳定性是一个反复出现的问题。主动学习策略【Vandermause等人2020;Ang等人,2021】专注于从学习模型表现不佳的状态收集新数据,可以帮助解决这些不稳定性问题,并减少训练可靠的ML力场所需的地面真实计算的数量。作为将MD模拟扩展到更广泛的空间和时间尺度的重要途径,粗粒度的实现空间(通过将原子转化为粗粒珠子)和时间(通过采用更大的时间步长,例如通过学习时间积分动力学)的方法都非常重要。未来的研究应该努力进一步理解和描述粗粒度(CG)方案中保留和没收的信息。还必须探索创建更有效的CG方案的方法,在指定的计算预算内保留最大量的信息。最后,学习对罕见事件进行采样的努力构成了另一个充满活力的研究领域。在这一领域,各种方法,如基于ML的集体变量发现【Sidky等人。2020a】、过渡路径采样【Holdijk等人。2022】和用于模拟玻尔兹曼分布的深度生成模型【Noé等人。2019】代表了推进这一研究主题的有希望的方向。

5.6 学习立体异构和构象灵活性

3D图形神经网络(GNN)相对于其2D对应物的一个潜在优势是它们能够自然地模拟立体异构体之间的结构差异,立体异构体是共享相同2D分子图但在3D中具有不同原子空间排列的分子。立体异构通常由四面体手性中心(例如,具有四个非等价键合邻居的碳原子)诱导;具有不同E/Z(顺式/反式)构型的双键;和阻转异构体、丙二烯或其他螺旋分子的手性轴(图22)【Eliel和Wilen 1994】。值得注意的是,分子图可以具有许多不同的立体异构体;具有N个四面体手性中心的分子可以具有多达2N个立体异构体,甚至不考虑E/Z异构或轴向手性。两种立体异构体可分类为非对映异构体或对映异构体。对映异构体是镜像手性分子,其不能通过热力学允许的构象变化(例如,围绕化学键的旋转)叠加。非对映异构体通常具有完全不同的化学性质,而对映异构体在许多情况下表现出相同的物理化学性质,除非与其他手性分子(如蛋白质)相互作用,在这种情况下,它们可能表现出非常不同的性质【McConathy和Owens 2003;Chhabra等人,2013年】。
因此,图神经网络学习立体异构的微妙影响的能力对于从药物化学到化学催化等领域的实际应用至关重要。立体异构作为分子同一性的一个方面被忽视了,因为用于分子性质预测的大多数基准不需要仔细处理,因为它们具有高度的随机不确定性和立体异构体在数据集中的代表性不足。

构象异构是立体化学的另一种形式,它描述了单个分子如何在势能面(PES)上采用许多不同的低矮结构,统称为构象异构体系综【Wolf 2007Eliel和Wilen 1994】。第5.2节描述了静态和先前已知的3D分子结构的表示学习,例如来自QM9数据集的DFT优化的基态分子几何形状【Ramakrishnan等人,2014年】。事实上,分子不是静态结构,而是通过分子内运动(如化学键旋转和较小的振动扰动)在不同构象之间不断相互转换。这些运动的能量损失是环境依赖性的(例如,溶剂依赖性的),构象异构体之间的相互转化速率高度依赖于 温度。例如,在室温下,环己烷经历椅子翻转(10 kcal/mol能垒),特征周期为微秒【Hendrickson 1961】,而庞大的联芳基体系如1,1’-联萘在其(R)-和(S)-阻转异构体(23 kcal/mol能垒)之间以小时的时间尺度相互转化【Meca等人,2003】。通俗地说,如果两种构象异构体在实际时间尺度上不能进行热相互转化(例如,不能在室温下分离),则它们将被认为属于不同的“立体异构体”;可相互接近的两种构象异构体将被描述为对应于相同的“立体异构体”。

图22:

在这里插入图片描述
描述了共享共同2D图形拓扑的分子在3D空间中原子的不同取向或排列。立体异构可由多种局部结构特征引起;这里显示的是与药物化学、化学催化和有机化学特别相关的常见立体化学形式。
四面体手性(或点手性) 描述了围绕立体中心的四个非等效化学基团的不同取向。四面体手性中心在反射时反转,因此诱导对映异构。四面体手性通常与碳原子相关,但也可以在其他地方出现,例如在亚磺酰基或氧鎓化合物中。
轴向手性是由四个化学取代基围绕手性轴的(非平面)取向引起的。由于相邻的双(π)键的螺旋桨状排列,在丙二烯中发现了轴向手性,并且通常在阻转异构体中发现了轴向手性,其中大体积的取代基限制了围绕单(σ)键的旋转。
螺旋手性也是轴向手性的一种形式,尽管其结构起源不同。与四面体手性一样,轴向手性导致对映异构。
E/Z异构是由(平面)双键的不同顺式或反式构型引起的。与四面体或轴向手性不同,E/Z异构不产生对映异构体对。
这些形式的立体化学产生立体异构体,其通常在不经历化学反应的情况下不能在实际时间尺度上相互转化。
由于分子的3D柔性,任何给定的立体异构体也可以具有结构不同但快速相互转化的构象异构体或构象异构体的分布。可观察到的分子性质通常与整个构象异构体系综的热力学平均值有关。


许多实验上可观察到的化学性质取决于热力学上可接近的构象的完全分布。另一方面,有些可能依赖于先验未知的特定(高能)几何形状,例如配体的活性结合姿态。PES还可以通过分子间相互作用(例如,与溶剂分子)发生重大改变,这使得在不执行昂贵的模拟的情况下确定分子结构对可观察特性有显着贡献的先验变得具有挑战性。尽管 3D GNN 主要是为了编码单个 3D 结构而开发的(第 5.2 节),但最近的工作试图通过明确编码构象集合来表示构象灵活性 [Axelrod 和 Gomez-Bombarelli 2020;Chuang 和 Keiser 2020]。这可能对预测分布依赖性分子性质(例如玻尔兹曼平均配体蛋白结合亲和力)有影响 [Miller 和 Dill 1997;Gilson 和 周 2007];化学反应速率和选择性 [Hansen 等人,2016 年;Guan et al. 2018];和熵对自由能的贡献 [Mezei and Beveridge 1986;Chen 等人,2004 年]。

5.6.1 问题设置

对于给定的二维分子图 G = ( z , E ) \mathcal G = (z, E) G=(z,E),其中 z 是原子类型(例如原子序数)的向量,E 表示图邻接矩阵,我们可以将其热力学可访问的构象系综正式描述为一个集合 C G = { C i } i = 1 ∣ C G ∣ C_{\mathcal{G}}=\{C_{i}\}_{i=1}^{|C_{\mathcal{G}}|} CG={Ci}i=1CG 结构不同的 3D 分子几何形状 C i ∈ R 3 × n C_i \in \mathbb R^{3\times n} CiR3×n,每个几何形状都标注有一个(自由)能量。尽管构象体集合实际上是一个连续分布,但通常通过在任何 Ci 和 Cj 之间施加亚埃最小均方根距离 (RMSD) 阈值来用一组离散的构象来描述它。 C G C_\mathcal G CG 可分为 S 个不相交子集,对应于每个立体异构体可用的构象分布 C G s = { C k s } k = 1 ∣ C G s ∣ C_{G}^{s} = \{C_{k}^{s}\}_{k=1}^{|C_{G}^{s}|} CGs={Cks}k=1CGs 的分子图,使 C G = C G 1 ∪ C G 2 ∪ . . . ∪ C G S C_{\mathcal{G}}=C_{\mathcal{G}}^{1}\cup C_{\mathcal{G}}^{2}\cup...\cup C_{\mathcal{G}}^{S} CG=CG1CG2...CGS . 决定哪些符合者属于不相交的子集可能有些主观,但通常基于它们在与手头应用程序相关的任何时间尺度上相互转换的能力。分布中的每个构象者都可以被分配一个统计权重(玻尔兹曼) p C i s = exp ⁡ ( − e i k B T ) / ∑ j exp ⁡ ( − e j k B T ) p_{C_{i}^{s}}=\exp(\frac{-e_{i}}{k_{B}T})/\sum_{j}\exp(\frac{-e_{j}}{k_{B}T}) pCis=exp(kBTei)/jexp(kBTej) ,对应于其在实验条件下的预期存在,其中ei是构象者Cs i的(自由)能量,kB是玻尔兹曼常数,T是温度。一些示例的立体化学表示学习任务包括将给定的构象体分类为许多立体异构体之一,对比属于不同立体异构体的构象的学习表示,或训练监督模型以预测来自采样构象体的不可互换立体异构体的特性。这个最终的监督学习任务旨在学习 f ^ ( C k s ∈ C G s ; θ ) ≈ f ( C G s ) \hat{f}(C_{k}^{s}\in C_{G}^{s};\theta)\approx f(C_{G}^{s}) f^(CksCGs;θ)f(CGs) ,其中 f ^ \hat f f^ 是权重为 θ 的神经网络。与在构象集合上学习相关的任务包括从完整构象集合的一个小子集 f ^ ( { C k s } k = 1 K ≪ ∣ C g s ∣ ; θ ) ≈ ⟨ y ⟩ k B \hat{f}(\{C_{k}^{s}\}_{k=1}^{K\ll|{C}_{g}^{s}|};\theta)\approx\langle y\rangle_{k_{B}} f^({Cks}k=1KCgs;θ)ykB 预测玻尔兹曼平均性质 ⟨ y ⟩ k R = ∑ i p C i f ( C i ) \langle y\rangle_{k_{R}}=\sum_{i}p_{C_{i}}f(C_{i}) ykR=ipCif(Ci),其中 f ( C i ) f (C_i) f(Ci) 是每个构象者的性质,或在一组(非活性)诱饵构象体中标识一个性质活跃的构象者。

5.6.2 技术挑战

学习分子立体化学和构象灵活性带来了多方面的建模挑战。
由于立体异构体具有相同的分子图,因此 2D GNN 在区分具有不同化学性质的立体异构体的能力方面存在固有的限制。通常,从业者使用简单的原子(节点)或键(边缘)特征来增强分子图,这些特征存储立体化学信息,例如手性中心的手性或双键的配置[Yang et al. 2019]。然而,常用的特征(如 R/S 手性原子标签)是全局属性,它们不根据局部图卷积起作用 [Pattanaik et al. 2020],具有有限的表示学习能力 [Adams et al. 2021],并且不能解释所有形式的分子手性。
根据其对称特性,3D GNN在表达某些立体化学的能力方面也可能受到限制。例如,许多数学上简单的具有E(3)不变特征的3D GNN无法区分对映异构体的镜像结构。因此,通常需要具有 4 体相互作用或等变特征的更复杂的网络来稳健地表达来自 3D 分子结构的手性 [Liu et al. 2022f;Gasteiger 等人,2021 年;Thomas 等人,2018 年]。此外,从单一 3D 结构 Cs k 充分预测立体异构体 f (Cs G) 的性质需要神经网络学习 3D 构象的不变性,以避免混淆哪些构象属于哪个立体异构体 [Adams et al. 2021]。同时,同时编码多个构象(至少)线性地缩放了训练/推理的计算成本,同时也使网络优化明显更具挑战性 [Axelrod 和 Gomez-Bombarelli,2020]。

对构象体集合和分子灵活性进行建模带来了与获得高质量构象体集成相关的额外挑战,尤其是在推理时。也就是说,如果预测模型是使用从昂贵的量子化学或分子动力学模拟中获得的构象进行训练的,那么在推理时可能需要相同的模拟,以避免域偏移降低模型的准确性。另一方面,如果只编码廉价的构象,而这些构象并不是真值相容体的忠实表示,那么可能很难准确预测高质量构象的结构敏感特性。例如,已经观察到,与直接使用真值构象的情况相比,使用分子力学力场优化的编码构象来预测 DFT 优化分子的基态量子特性会导致模型精度的大幅损失 [Stärk 等人,2022a;Pinheiro 等人,2022 年]。同样,当仅对从集成中随机抽样的非活性构象进行建模时,准确预测未知属性-活性构象的性质可能具有挑战性(例如,在先验地了解相关配体构成的情况下预测蛋白质-配体结合亲和力)。尽管使用2D GNN可以避免获得质量一致性的挑战,但2D GNN通常无法充分学习对分子几何高度敏感的函数。

收集高质量的数据集进行基准测试和模型开发也存在挑战。在开发模型来预测从模拟构象中获得的分布依赖性属性时,至关重要的是,在足够高的理论水平上进行详尽的构象体模拟,以避免遗漏重要的(低能量或性质活跃的)构象或为不切实际的几何形状分配过多的统计权重。理想情况下,这些构象搜索应在反映物理条件的环境中进行,例如考虑溶剂分子对PES的影响。此外,开发用于立体化学表示学习的新模型通常受到缺乏高质量数据集的阻碍,这些数据集同时 1) 包括每个分子图的多个立体异构体的特性,2) 包括对分子立体化学敏感的特性,以及 3) 包括具有高信噪比的特性。

  • 23
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值