几何等变图神经网络综述

fig1
许多科学问题都要求以几何图形(geometric graphs)的形式处理数据。与一般图数据不同,几何图显示平移、旋转和反射的对称性。研究人员利用这种对称性的归纳偏差(inductive bias),开发了几何等变图神经网络(GNN),以更好地描述几何图的几何特性和拓扑。尽管取得了丰硕的成果,但它仍然缺乏一项survey来描述等变GNN是如何发展的,这反过来又阻碍了等变GNNs的进一步发展。为此,基于必要但简明的数学预备知识,我们下面分析并将现有方法分为三组,以了解如何表示GNN中的消息传递和聚合。另外还举例了相关应用,以便于以后的方法开发和实验评估研究。


归纳偏差or归纳偏置(inductive bias),归纳是自然科学研究中的一种方法,指的是从一些例子中寻找共性,形成一个通用的规则,bias是指我们对模型的偏好。因此归纳偏置可以理解为:

  • 从现实生活中观察到的现象中归纳出一定的规则,然后对模型做一定的约束,从而可以起到"模型选择"的作用,即从假设空间中选择出更符合现实规则的模型。(可以理解为一个正则化方式)

关于等变与不变:

  • 等变性(equivariant),对于一个特征,进行变换: f ( g ( x ) ) = g ( f ( x ) ) f(g(x))=g(f(x)) f(g(x))=g(f(x))则称变换为等变的。
  • 不变性(invraiant),对于特征,进行变换: f ( x ) = f ( g ( x ) ) f(x)=f(g(x)) f(x)=f(g(x))则称变换 f f f对变换 g g g具有不变性。

等变,不变与CNN:

  • CNN具有等变性和不变性。如果我们的输出是给出图片中猫的位置,那么我们将图片中的猫从左边移到右边,这种平移也会反应在输出上,我们输出的位置也是从左边到右边,那么我们则可以说CNN有等变性;如果我们只是输出图片中是否有猫,那么我们无论把猫怎么移动,我们的输出都保持"有猫"的判定,因此体现了CNN的不变性。
  • 因此,CNN中的卷积操作中的参数共享使得它对平移操作有等变性,而pooling操作对平移有不变性。

1.Introduction

许多问题,尤其是物理和化学问题,需要以几何图的形式处理数据。与一般图数据不同,几何图不仅为每个节点分配一个特征,还分配一个几何矢量。例如,分子或蛋白质可以被视为几何图,其中原子的3D位置坐标是几何矢量;或者在一般的多体物理系统中,3D状态(位置、速度或自旋)是粒子的几何矢量。值得注意的是,几何图显示了平移、旋转和反射的对称性。这是因为无论我们如何将分子(或一般物理系统)从一个地方平移或旋转到另一个地方,控制原子(或粒子)动力学的物理定律是相同的。在处理这类数据时,必须将对称性的归纳偏差纳入模型的设计中,这推动了几何等变图神经网络(GNN)的研究。

GNN最初由Sperduti和Starita于1997提出,在深度学习的发展下,GNN在图结构建模方面表现出了突出的优势。虽然已经开发了丰富的结构,但大多数以前的GNN在几何上并不是等变的,因此不适合用于几何图。为了实现几何等变,人们提出了大量工作来改进GNN中的消息传递和聚合机制。

然而,鉴于取得了丰硕的成就,仍然没有一份survey来描述等变GNN是如何发展的。这不仅阻碍了外部研究人员迅速进入这一领域,还可能阻碍从现有论文中提取经验教训和新想法,供那些想进一步推动这一领域的研究人员使用。

2.Backgrounds

在本节中,将介绍两个关键因素,即图神经网络(GNN)和等变,作为讨论几何等变GNN的基础。

2.1.消息传递GNNs

GNNs已经被广泛用于处理关系数据。考虑 G = ( V , E ) G=(V,E) G=(V,E),每个节点 i i i都被分配一个特征 h i h_{i} hi,我们也可以为连接 i , j i,j i,j的边设置edge feature e i j e_{ij} eij。Gilmer在2017年改进了一个开创性的消息传递方案,以将主流GNN统一到一个通用架构中。它迭代地为每个节点(或边)进行消息计算和邻域聚合。一般来说,我们有: m i j = ψ m ( h i , h j , e i j ) (1) m_{ij}=\psi_{m}(h_{i},h_{j},e_{ij})\tag{1} mij=ψm(hi,hj,eij)(1) h i ′ = ψ h ( { m i j } j ∈ N ( i ) , h i ) (2) h_{i}'=\psi_{h}(\left\{m_{ij}\right\}_{j\in N(i)},h_{i})\tag{2} hi=ψh({mij}jN(i),hi)(2)其中, N ( i ) N(i) N(i) i i i的邻居节点集合(默认不包括自环), ψ m \psi_{m} ψm ψ h \psi_{h} ψh是带参数的函数。Eq.1描述了消息的生成,Eq.2描述了消息的聚合与节点的特征更新。

2.2.等变性

X X X Y Y Y分别为输入和输出的向量空间,这两个空间之间赋予一组变换 G G G G × X → X , G × Y → Y G\times X\rightarrow X,G\times Y\rightarrow Y G×XX,G×YY函数 “ ϕ : X → Y \phi:X\rightarrow Y ϕ:XY” 被称为对应 G G G的等变量(如果当我们对输入应用任何变换时,输出也会存在相同的变换或在某种可预测的行为下发生变化),我们可以定义:

定义1(等变性):函数 “ ϕ : X → Y \phi:X\rightarrow Y ϕ:XY” 是G-equivariant,当: ϕ ( ρ X ( g ) x ) = ρ Y ( g ) ϕ ( x ) , ∀ g ∈ G (3) \phi(\rho_{X}(g)x)=\rho_{Y}(g)\phi(x),\forall g\in G\tag{3} ϕ(ρX(g)x)=ρY(g)ϕ(x),gG(3)其中, ρ X \rho_{X} ρX ρ Y \rho_{Y} ρY分别是输入和输出空间中的群表示(group representations),特别的,如果 ρ Y \rho_{Y} ρY是恒等式(比如常量)则 ϕ \phi ϕ被称为不变量。

定义2(Group representation):群的表示是可逆线性映射 ρ ( g ) : G → V \rho(g):G\rightarrow V ρ(g):GV g ∈ G g\in G gG是群中的元素,同时它是线性的: ρ ( g ) ρ ( h ) = ρ ( g ⋅ h ) , ∀ g , h ∈ G \rho(g)\rho(h)=\rho(g\cdot h),\forall g,h\in G ρ(g)ρ(h)=ρ(gh),g,hG


群表示可以理解为变换的表示。比如:

  • O ( n ) O(n) O(n)表示旋转和反射组成的 n n n维正交群;
  • S O ( n ) SO(n) SO(n)是一个只包含旋转的特殊正交群;
  • E ( n ) E(n) E(n)是由旋转、反射和平移组成的 n n n维欧几里得群;
  • S E ( n ) SE(n) SE(n)是一个由旋转和平移组成的特殊的欧几里得群;
  • 上面所有的群都是Lie群的具体例子;

3.几何等变GNNs

本节首先描述几何图,然后总结有望处理此类数据的几何等变GNN。

3.1.几何图

在许多应用中,我们处理的图不仅包含拓扑连接和节点特征,还包含某些几何信息。以分子为例,每个原子都有一个特征 h i ∈ R H h_{i}\in R^{H} hiRH(比如,电荷,质量等)和一个几何矢量 x i ∈ R 3 \textbf{x}_{i}\in R^{3} xiR3(比如位置或速度坐标)。当通过GNN处理此类数据时,我们可以将等变的归纳偏差注入到图模型中。

对于几何图,应用场景决定是否需要等变性,例如:

  • 在预测分子的能量时,我们需要输出对几何矢量的任何旋转保持不变性(需要不变性);
  • 然而,在预测分子动力学时,我们要求输出与每个原子位置的输入相等(需要等变性)。

为了更好地区分,在下文中,用粗体表示几何矢量,用普通符号表示非几何量。

Eq.1-2被改为: m i j = ψ m ( x i , x j , h i , h j , e i j ) (4) m_{ij}=\psi_{m}(\textbf{x}_{i},\textbf{x}_{j},h_{i},h_{j},e_{ij})\tag{4} mij=ψm(xi,xj,hi,hj,eij)(4) m i j = ψ m ( x i , x j , h i , h j , e i j ) (5) \textbf{m}_{ij}=\psi_{\textbf{m}}(\textbf{x}_{i},\textbf{x}_{j},h_{i},h_{j},e_{ij})\tag{5} mij=ψm(xi,xj,hi,hj,eij)(5) h i ′ = ψ h ( { m i j } j ∈ N ( i ) , h i ) (6) h'_{i}=\psi_{h}(\left\{m_{ij}\right\}_{j\in N(i)},h_{i})\tag{6} hi=ψh({mij}jN(i),hi)(6) x i ′ = ψ x ( { m i j } j ∈ N ( i ) , x i ) (7) \textbf{x}'_{i}=\psi_{\textbf{x}}(\left\{\textbf{m}_{ij}\right\}_{j\in N(i)},\textbf{x}_{i})\tag{7} xi=ψx({mij}jN(i),xi)(7)其中, m i j m_{ij} mij m i j \textbf{m}_{ij} mij分别是通过边 ( i , j ) (i,j) (i,j)传递的标量和方向输出, ψ h \psi_{h} ψh ψ x \psi_{\textbf{x}} ψx分别是用于标量特征和几何矢量特征的消息聚合函数。另外:

  • ψ m \psi_{m} ψm对输入 ( x i , x j ) (\textbf{x}_{i},\textbf{x}_{j}) (xi,xj)是G-invariant的;
  • ψ m \psi_{\textbf{m}} ψm对输入 ( x i , x j ) (\textbf{x}_{i},\textbf{x}_{j}) (xi,xj)是G-equivariant的;
  • ψ x \psi_{\textbf{x}} ψx对输入 { m i j } j ∈ N ( i ) \left\{\textbf{m}_{ij}\right\}_{j\in N(i)} {mij}jN(i) x i \textbf{x}_{i} xi是G-equivariant的;

图1中详细说明了上述等变消息传递机制。
fig2

  • 图1:旋转情况下几何等变消息传递的图示。生成标量消息和矢量消息,然后进行聚合,从而产生等变更新。

目前已经提出了多种等变GNNs,它们通常是不同Group上的 Eq.4-7 的不同具体对象。根据消息的表示方式,将当前的方法分为三类:不可约表示(irreducible representation),正则表示(regular representation),标量化(scalarization)。

在大多数情况下,由于相对位置 x i − x j \textbf{x}_{i}-\textbf{x}_{j} xixj是平移不变量(translation invariant),因此,下面讨论主要涉及旋转和除了平移的其他变换。

3.2.不可约表示Irreducible Representation

这类模型基于表示论中关于紧群的线性表示可以拆解为一系列不可约表示这一理论。从而在 S O ( 3 ) SO(3) SO(3)群( S O ( n ) SO(n) SO(n)是一个只包含旋转的特殊正交群)中构建满足等变性的消息传递模型,例如: m i j l = ∑ k ≥ 0 W l k ( x i − x j ) x j k \textbf{m}_{ij}^{l}=\sum_{k\geq 0 }\textbf{W}^{lk}(\textbf{x}_{i}-\textbf{x}_{j})\textbf{x}_{j}^{k} mijl=k0Wlk(xixj)xjk x i ′ l = w l l x i l + ∑ j ∈ N ( i ) m i j l \textbf{x}_{i}'^{l}=w_{ll}\textbf{x}_{i}^{l}+\sum_{j\in N(i)}\textbf{m}_{ij}^{l} xil=wllxil+jN(i)mijl上面模型对任意属于 S O ( 3 ) SO(3) SO(3)的旋转操作等变。其中, x i l ∈ R 2 l + 1 \textbf{x}_{i}^{l}\in R^{2l+1} xilR2l+1表示节点 i i i的 degree l l l 几何向量。 x i ∈ R 3 \textbf{x}_{i}\in R^{3} xiR3是节点的坐标, w l l w_{ll} wll是self-interaction权重, W l k ( x ) ∈ R ( 2 l + 1 ) × ( 2 k + 1 ) \textbf{W}^{lk}(\textbf{x})\in R^{(2l+1)\times(2k+1)} Wlk(x)R(2l+1)×(2k+1)是旋转可变的,具体实现为: W l k ( D 1 ( r ) x ) = D l ( r ) W l k ( x ) ( D k ( r ) ) − 1 \textbf{W}^{lk}(\textbf{D}^{1}(r)\textbf{x})=\textbf{D}^{l}(r)\textbf{W}^{lk}(\textbf{x})(\textbf{D}^{k}(r))^{-1} Wlk(D1(r)x)=Dl(r)Wlk(x)(Dk(r))1

3.3.基于正则表示的模型

另一类的工作尝试利用群的正则表示来构建群卷积操作。比如Lie卷积: m i j = φ ( l o g ( u i − 1 u j ) ) h j m_{ij}=\varphi(log(u_{i}^{-1}u_{j}))h_{j} mij=φ(log(ui1uj))hj h i ′ = 1 ∣ N ( i ) ∣ + 1 ( h i + ∑ j ∈ N ( i ) m i j ) h_{i}'=\frac{1}{|N(i)|+1}(h_{i}+\sum_{j\in N(i)}m_{ij}) hi=N(i)+11(hi+jN(i)mij)其中, u i u_{i} ui x i \text{x}_{i} xi在群中的映射元素,log将群元素映射到对应的Lie代数。 φ \varphi φ是一个MLP。通过这种构造,Lie卷积中对于 h i h_i hi的更新实现了对于任意Lie群以及其离散子群的不变性。

3.4.标量化

除了基于群表示论的途径外,很多工作采用了基于标量化的建模等变性的方法。这类标量化的方法将几何特征转化为一些不变的标量,然后利用MLP网络结构来得到一个标量的变换,最后将这个变换加回到原有的几何特征上从而得到等变性。比如: m i j = φ m ( h i , h j , ∣ ∣ x i − x j ∣ ∣ 2 , e i j ) m_{ij}=\varphi_{m}(h_{i},h_{j},||\textbf{x}_{i}-\textbf{x}_{j}||^{2},e_{ij}) mij=φm(hi,hj,∣∣xixj2,eij) x i ′ = x i + ∑ j ≠ i ( x i − x j ) φ x ( m i j ) \textbf{x}_{i}'=\textbf{x}_{i}+\sum_{j\neq i}(\textbf{x}_{i}-\textbf{x}_{j})\varphi_{x}(m_{ij}) xi=xi+j=i(xixj)φx(mij) h i ′ = φ h ( h i , ∑ j ∈ N ( i ) m i j ) h_{i}'=\varphi_{h}(h_{i},\sum_{j\in N(i)}m_{ij}) hi=φh(hi,jN(i)mij)其中, ∣ ∣ x i − x j ∣ ∣ ||\textbf{x}_{i}-\textbf{x}_{j}|| ∣∣xixj∣∣是对几何特征的标量化, φ \varphi φ代表不同的MLP,通过将几何信息与非几何信息关联: ( x i − x j ) φ x ( m i j ) (\textbf{x}_{i}-\textbf{x}_{j})\varphi_{x}(m_{ij}) (xixj)φx(mij),可以同时保证非几何特征和几何特征传播过程中的等变性。这个构造结合了物理知识,可以看成是对两个粒子的库伦力 / 重力的计算的建模。

4.应用

等变GNN在从物理系统到化学物质的各种类型的real-world几何数据上有着广泛的应用。

物理动力学模拟

对复杂物理系统的动力学建模一直是一个具有挑战性的课题,神经网络已经被用于推断相互作用和动力学。在物理系统中,像带电粒子这样的物体通过遵循物理定律的力相互作用。通常任务是在初始条件下预测粒子的动力学,包括位置、速度和电荷。这样的任务是E(3)-等变的,因为粒子的动力学与整个系统一起平移、旋转和反射。


E ( n ) E(n) E(n)是由旋转、反射和平移组成的 n n n维欧几里得群


分子

另一个重要的应用场景是分子数据,其中分子中的原子受到复杂的化学相互作用的影响。对于分子数据,标量节点特征 h i h_i hi通常是原子的特征,节点之间的连接性要么由化学键提供,要么基于距离阈值获取。下面回顾分子的等变GNN,包括预测和生成。

预测
2022 年 7月18日腾讯 AI Lab发表了题为 “3D Equivariant Molecular Graph pretraining” 的文章,开发了基于能量表示的等变分子图神经网络预训练模型,在下游能量和力预测上均达到了最优的效果。


使用3D backbone模型,设计3D感知预训练任务,并针对下游任务进行评估,存在如下挑战:

  • 如何保持生物世界的对称性旋转/平移分子的三维构象不会改变其行为规律。在数学上,应该使用backbone模型E(3)-等变和预训练损失E(3)-不变,其中,群E(3)包含旋转、反射和平移。

生成
Axelrod和Gomez Bombarelli引入了大规模未标记数据,将其分为两个子集GEOM-QM9和GEOM Drugs。这些数据集包含大量小分子构象的不同样本,并作为分子构象生成任务中的无监督训练集。ConfGF和DGSM使用旋转平移等变GNN参数化基于分数的生成模型中的分数函数,从而生成学习构象条件分布的生成模型。GeoDiff进一步将生成模型推广到去噪扩散模型。

蛋白质与小分子docking
预测药物样分子如何与特定蛋白质靶标结合是药物发现的核心问题。一种极快的计算binding方法将实现快速虚拟筛选或成为药物工程等关键应用。现有方法的计算成本很高,因为它们依赖于大量候选采样以及评分、排名和微调步骤。

“EquiBind:Geometric Deep Learning for Drug Binding Structure Prediction” 挑战了这一范式,这是一种 SE(3)-等变 几何深度学习模型,对:

  • i) 受体receptor结合位置(盲对接);
  • ii) 配体ligand的结合姿势和方向进行直接预测。

与传统和最近的基线相比,EquiBind 实现了1200倍的加速。
fig3

  • EquiBind架构:简单来说,该方法利用E(3)-等变网络生成配体和受体上的结合关键点,而后在三维空间中对这些点进行匹配来确定结合模式。同时,该网络还能够对配体的三维结构进行变换实现小分子柔性对接。
  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 端到端深度学习图像匹配是一种利用深度学习技术来实现图像匹配的方法。这种方法在传统图像匹配方法的基础上,使用了神经网络来自动学习图像间的特征表示,并在端到端的过程中完成匹配。 通常,端到端深度学习图像匹配方法首先对输入图像进行特征提取,使用卷积神经网络(Convolutional Neural Network, CNN)提取图像的特征表示。然后,通过将图像的特征表示与数据库中的图像特征进行比较,确定图像的匹配情况。 与传统的图像匹配方法相比,端到端深度学习图像匹配具有许多优点。首先,它可以自动学习图像间的特征表示,不需要人工设计特征提取算法。其次,它可以处理复杂的图像,包括不同光照、姿态等化的图像。最后,由于使用了大量的数据训练,端到端深度学习图像匹配具有很好的泛化能力,可以很好地适用于实际应用场景。 总的来说,端到端深度学习图像匹配是一种具有广泛应用前景的图 ### 回答2: 端到端深度学习图像匹配是一种基于深度学习的图像匹配方法,它通过直接学习输入图像之间的映射关系,实现了从输入图像到输出匹配结果的端到端的过程。本文将对端到端深度学习图像匹配的方法、优点和应用进行综述。 在端到端深度学习图像匹配中,一种常见的方法是使用卷积神经网络(CNN)进行特征提取和匹配。首先,将输入图像通过CNN网络提取高层特征表示,然后使用一些配准算法(如光流法、平移不特征换等)对这些特征进行配准,最后通过一些匹配损失函数来优化模型参数,得到最终的匹配结果。 端到端深度学习图像匹配具有以下几个优点。首先,通过直接学习输入图像之间的映射关系,避免了传统方法中的特征提取和匹配两个独立步骤的错误传播问题。其次,深度学习模型可以自动学习图像的高层特征表示,从而更好地适应不同类型的图像和视觉任务。此外,通过端到端的训练方式,可以直接优化模型参数,提高整个图像匹配系统的性能。 端到端深度学习图像匹配在许多领域都有广泛的应用。例如,在计算机视觉领域,它可以用于图像配准、图像检索等任务。在无人驾驶领域,它可以用于实时的目标跟踪和环境感知等任务。此外,还可以将其应用于医学影像处理、遥感影像分析等领域。 尽管端到端深度学习图像匹配已经取得了一些重要的进展,但仍然存在一些挑战和限制。例如,对于缺乏标记的训练数据,如何有效利用弱监督学习方法进行训练是一个重要问题。此外,如何解决大规模数据集上的计算和存储问题也是一个挑战。 总之,端到端深度学习图像匹配是一种具有广泛应用前景的方法。通过深度学习模型的优化和训练,可以实现更高效和准确的图像匹配。然而,仍然需要进一步的研究和探索来解决一些挑战和限制,以实现更好的性能和应用。 ### 回答3: 端到端深度学习图像匹配是指使用端到端的深度学习方法来实现图像匹配的过程。传统的图像匹配算法通常包括特征提取、特征匹配和几何校正等多个步骤,而端到端深度学习图像匹配将这些步骤整合在一个网络中,通过端到端的方式直接从原始图像数据中学习匹配模型。 在端到端深度学习图像匹配中,主要涉及两个重要的问题:特征表示和相似性度量。特征表示是指如何将图像数据转化为具有良好表达性能的向量表示,常用的方法包括卷积神经网络(CNN)和循环神经网络(RNN)等。相似性度量是指如何度量两个特征表示之间的相似程度,一般采用欧氏距离、余弦相似度或交叉熵等方法。 端到端深度学习图像匹配在许多视觉任务中都取得了显著的成果。例如,在图像检索中,可以通过学习一个映射函数,将每个图像映射到一个具有良好特征表示的向量空间中,然后通过计算向量之间的相似度来进行图像检索。在图像配准中,可以通过训练一个网络来预测图像的几何换参数,从而实现图像的自动对齐。 然而,端到端深度学习图像匹配仍面临一些挑战。首先,深度学习方法需要大量的标注数据来进行训练,而图像匹配任务通常难以获得准确的标注数据。其次,深度学习方法的模型复杂度较高,需要大量的计算资源和时间来训练和推断。此外,在一些复杂场景下,由于光照、视角等因素的化,图像匹配的性能仍然有待提高。 综上所述,端到端深度学习图像匹配是一种通过端到端的深度学习方法来实现图像匹配的新兴技术。虽然它在许多视觉任务中取得了良好的结果,但仍有一些问题亟待解决。随着深度学习技术和计算资源的不断发展,相信端到端深度学习图像匹配将在未来得到更广泛的应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值