论文笔记：E(n) Equivariant Graph Neural Networks

最新推荐文章于 2025-02-28 21:49:00 发布

UQI-LIUWJ

最新推荐文章于 2025-02-28 21:49:00 发布

阅读量9.1k

点赞数 20

分类专栏：论文笔记文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/qq_40206371/article/details/125514951

版权

论文笔记专栏收录该内容

355 篇文章

订阅专栏

本文介绍了一种新型图神经网络EGNN，它具有平移、旋转、反射和排列等变性，避免了中间层高阶表示的复杂计算。EGNN适用于3维及以上维度，且在保持性能的同时简化了架构。文章还讨论了其在等变性、GNN应用和拓展动量方面的细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0 介绍

本文介绍了一种新模型来学习与旋转、平移、反射和排列等变的图神经网络，称为 E(n)-等变图神经网络 (EGNN)。

与现有方法相比，EGNN不需要在中间层中计算昂贵的高阶表示，同时仍能获得有竞争力或更好的性能。此外，虽然现有方法仅限于 3 维空间的等变性，但EGNN很容易扩展到更高维空间。

1 introduction

尽管深度学习在很大程度上取代了手工制作的特征，但许多进步严重依赖于深度神经网络中的归纳偏差。（inductive bias）

将神经网络限制为和研究问题相关函数的一种有效方法是，利用问题的对称性、变换等变性（equivariance），通过研究某个对称组来简化当前问题的计算。【eg，CNN的卷积是等变形、池化是近似不变性；GNN的点的排列顺序是等变性（不同点的排列对应不同的邻接矩阵，但是最终这张graph表达的信息是一样的）】

许多问题都表现出 3D 平移和旋转对称性。论文中将这些对称操作的集合记为SE(3) ，如果包含反射，那么集合记为 E(3)。通常希望对这些任务的预测相对于 E(3) 变换是等变的或不变的。、

最近，已经提出了等变E(3) 或 SE(3) 的各种形式和方法。其中许多工作在研究中间网络层的高阶表示类型方面实现了创新。然而，这些高阶表示的转换需要计算成本高昂的系数或近似值。此外，在实践中，对于许多类型的数据，输入和输出仅限于标量值（例如温度或能量，在文献中称为 type-0）和 3d 矢量（例如速度或动量，在文献中称为 type-1）。

这篇paper提出了一种新的架构，它是平移、旋转和反射等变 (E(n))，以及关于输入点集的置换等变。 模型比以前的方法更简单，同时模型中的等变性不限于 3 维空间，并且可以扩展到更大的维空间，而不会显着增加计算量。

2 背景知识

2.1 等变性

定义：

通俗地说，先平移/旋转/排列再映射，和先映射再平移/旋转/排列效果是一样的

2.2 GNN

GNN笔记：消息传播模型_UQI-LIUWJ的博客-CSDN博客

3 EGNN

考虑一张图 $\mathcal{G}=(\mathcal{V,E})$ ,其中 $v_i \in \mathcal{V}, e_{ij} \in \mathcal{E}$ ,
每一个点的特征embedding是 $h_i \in R^{nf}$ (和2.2的GNN一样）[这个nf指的是node feature,并不是n乘f]【不带方向的物理信息，标量】
但在此基础上，EGNN对每个点加了一个n维的坐标 $x_i \in R^n$ 【带方向的几何信息，矢量】

GNN将保持与这些坐标 xi 旋转和平移的等变性，并且它还将以与 GNN 相同的方式保持与节点集 V 上排列的等变性。

用公式表示第l层EGNN，Equivariant Graph Convolutional Layer (EGCL)有： $h^{l+1},x^{l+1}=EGCL[h^l,x^l,\mathcal{E}]$

和传统GNN不一样的地方用绿色框框画出来了

在等式3中，EGNN增加了两个坐标之间的距离 $||x_i^l-x_j^l||^2$ 作为参数
在等式 4 中，按照论文的意思，xi的位置更新为径向的矢量场，由所有 $(x_i-x_i)_{\forall j}$ 共同决定【这里我不是很理解，为什么会是径向的，因为不同的xi，它的方向是不一样的， $(x_i-x_i)_{\forall j}$ 作为向量减法，不一定沿着径向呀】
等式4每一项的加权系数是通过函数 $\phi_x:R^{nf} \rightarrow R^1$ 计算的
这里的C=1/(M-1)
——>等式3&4可以保证等变性
——>与此同时，另外一个区别是，这边考虑了所有(i,j)对，而不仅仅是邻居点之间的pair，也就是说，embedding mij可以包含全图的信息