《Allen-Cahn Message Passing for Graph Neural Networks with Particle Phase Transition》阅读笔记

一.概述

本文从多粒子系统的角度引入排斥力到消息传递框架中,提出了ACMP模型。现有的大多数消息传递神经网络是由与Dirichlet能量相关的吸引力驱动的,相应的图神经网络存在oversmoothing问题,无法进行异配数据集预测。但倘若相互排斥的粒子始终保持排斥,随着时间推进,粒子之间会不断远离。为避免粒子被推到无穷远处,作者引入了Allen-Cahn项。

二.背景

消息传递图神经网络

给定无向图 G ( V , E ) \mathcal{G}(\mathcal{V},\mathcal{E}) G(V,E) x i ( k − 1 ) ∈ R d x_i^{(k-1)} \in \mathbb{R}^d xi(k1)Rd表示节点 i i i在第 ( k − 1 ) (k-1) (k1)层的特征, a j , i ∈ R D a_{j,i}\in\mathbb{R}^D aj,iRD表示节点 j j j i i i的边特征。
x i ( k ) = γ ( k ) ( x i ( k − 1 ) , □ j ∈ N i ϕ ( k ) ( x i ( k − 1 ) , x j ( k − 1 ) , a j , i ) ) \mathbf{x}_i^{(k)}=\gamma^{(k)}\left(\mathbf{x}_i^{(k-1)}, \square_{j \in \mathcal{N}_i} \phi^{(k)}\left(\mathbf{x}_i^{(k-1)}, \mathbf{x}_j^{(k-1)}, a_{j, i}\right)\right) xi(k)=γ(k)(xi(k1),jNiϕ(k)(xi(k1),xj(k1),aj,i))
其中 □ \square 表示可微、转置不变函数(如sum、mean等), γ \gamma γ ϕ \phi ϕ表示可微函数如(MLPs), N i \mathcal{N}_i Ni表示节点 i i i的一跳邻居集。

消息传递网络通过聚合邻居的特征和自身上一轮的特征来生成本轮新的特征表示。许多代表性GNNs都follow这一范式,如GCN的聚合规则为 x i ′ = Θ ⊤ ∑ j ∈ N i ∪ { i } a j , i d j d i x j \mathbf{x}_i^{\prime}=\Theta^{\top} \sum_{j \in \mathcal{N}_i \cup\{i\}} \frac{a_{j, i}}{\sqrt{d_j d_i}} \mathbf{x}_j xi=ΘjNi{i}djdi aj,ixj,其中 d ^ i = 1 + ∑ j ∈ N ( i ) a j , i \hat{d}_i=1+\sum_{j \in \mathcal{N}(i)} a_{j, i} d^i=1+jN(i)aj,i

图神经扩散

图上神经扩散方程(GRAND)为一些消息传递提供了统一的数学框架:
∂ ∂ t x ( t ) = div ⁡ [ G ( x ( t ) , t ) ∇ x ( t ) ] \frac{\partial}{\partial t} \mathbf{x}(t)=\operatorname{div}[\mathbf{G}(\mathbf{x}(t), t) \nabla \mathbf{x}(t)] tx(t)=div[G(x(t),t)x(t)]
其中 G = diag ⁡ ( a ( x i ( t ) , x j ( t ) , t ) ) \mathbf{G}=\operatorname{diag}\left(a\left(x_i(t), x_j(t), t\right)\right) G=diag(a(xi(t),xj(t),t)) a a a为反映节点 i i i和节点 j j j间相似性的函数, x i x_i xi为节点 i i i的特征。

三.动机

引力和斥力

本文研究了与图神经扩展相似的相互作用的粒子系统的神经方程,将改式子改写为按分量计算的形式,得到粒子系统:
∂ ∂ t x i ( t ) = ∑ j ∈ N i a ( x i , x j ) ( x j − x i ) \frac{\partial}{\partial t} x_i(t)=\sum_{j \in \mathcal{N}_i} a\left(x_i, x_j\right)\left(x_j-x_i\right) txi(t)=jNia(xi,xj)(xjxi)
从粒子系统的公式可以看出,当 a ( x i , x j ) > 0 a\left(x_i, x_j\right)>0 a(xi,xj)>0大于时, x i x_i xi的速度方向向着 x j x_j xj,即 x i x_i xi x j x_j xj吸引。相反地,若 a ( x i , x j ) < 0 a\left(x_i, x_j\right)<0 a(xi,xj)<0,则 x i x_i xi有趋势远离 x j x_j xj。因此, a ( x i , x j ) a\left(x_i, x_j\right) a(xi,xj) 表示 x i x_i xi x j x_j xj之间的吸引力或排斥力。在上述的扩展模型中,所有的 a ( x i , x j ) a\left(x_i, x_j\right) a(xi,xj)都是正的,因此连通分量中的所有节点特征都是相互吸引的。

然而,在某些问题中negative消息可能更重要,例如在二部图上进行节点分类,邻居消息为负,因为因为连接的节点属于不同的类。在粒子系统中可以加入偏置 β i j \beta_{ij} βij来模拟正、负信息机制。
∂ ∂ t x i ( t ) = ∑ j ∈ N i ( a ( x i , x j ) − β i , j ) ( x j − x i ) \frac{\partial}{\partial t} x_i(t)=\sum_{j \in \mathcal{N}_i}\left(a\left(x_i, x_j\right)-\beta_{i, j}\right)\left(x_j-x_i\right) txi(t)=jNi(a(xi,xj)βi,j)(xjxi)
系数项 a ( x i , x j ) − β i , j a\left(x_i, x_j\right)-\beta_{i, j} a(xi,xj)βi,j对应相互作用力,可能为吸引力也可能为排斥力,因此通过这种方式消息传递既能处理同配图又能处理异配图。

Allen-Cahn项

图的Dirichled能量定义为:
E ( x ) = 1 N ∑ i ∈ V ∑ j ∈ N i a i , j ∥ x i − x j ∥ 2 \mathbf{E}(\mathbf{x})=\frac{1}{N} \sum_{i \in \mathcal{V}} \sum_{j \in \mathcal{N}_i} a_{i, j}\left\|\mathbf{x}_i-\mathbf{x}_j\right\|^2 E(x)=N1iVjNiai,jxixj2
然而,加入排斥力可能会导致粒子被推到无穷远,这样Dirichlet能量就变得无界了。为避免该情况,作者添加了一个Allen-Cahn项 δ x i ( 1 − x i 2 ) \delta x_i\left(1-x_i^2\right) δxi(1xi2),即:
∂ ∂ t x i ( t ) = α ∑ j ∈ N i ( a ( x i , x j ) − β i , j ) ( x j − x i ) + δ x i ( 1 − x i 2 ) \frac{\partial}{\partial t} x_i(t)=\alpha \sum_{j \in \mathcal{N}_i}\left(a\left(x_i, x_j\right)-\beta_{i, j}\right)\left(x_j-x_i\right)+\delta x_i\left(1-x_i^2\right) txi(t)=αjNi(a(xi,xj)βi,j)(xjxi)+δxi(1xi2)

四.Allen-Cahn消息传递

基于上述内容,作者提出了Allen-Cahn Message Passing (ACMP)神经网络。

x in  \mathrm{x}^{\text {in }} xin 表示输入特征矩阵,在作者的解决方案中,首先对嵌入过一个MLP,即 x ( 0 ) = MLP ⁡ ( x i n ) \mathbf{x}(0)=\operatorname{MLP}\left(\mathbf{x}^{\mathrm{in}}\right) x(0)=MLP(xin)

ACMP的更新方程为:
∂ ∂ t x i ( t ) = α ⊙ ∑ j ∈ N i ( a ( x i ( t ) , x j ( t ) ) − β ) ( x j ( t ) − x i ( t ) ) + δ ⊙ x i ( t ) ⊙ ( 1 − x i ( t ) ⊙ x i ( t ) ) \frac{\partial}{\partial t} \mathbf{x}_i(t)=\boldsymbol{\alpha} \odot \sum_{j \in \mathcal{N}_i}\left(a\left(\mathbf{x}_i(t), \mathbf{x}_j(t)\right)-\beta\right)\left(\mathbf{x}_j(t)-\mathbf{x}_i(t)\right)+\boldsymbol{\delta} \odot \mathbf{x}_i(t) \odot\left(1-\mathbf{x}_i(t) \odot \mathbf{x}_i(t)\right) txi(t)=αjNi(a(xi(t),xj(t))β)(xj(t)xi(t))+δxi(t)(1xi(t)xi(t))
ACMP的模型架构如下:

ACMP-Framework

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Allen-Cahn方程是描述相变现象的一个数学模型,也是典型的非线性偏微分方程之一。它起初被用于材料科学研究中对二元合金凝固过程的描述,但现已广泛应用于物理化学、地球科学、生物学等领域。 Allen-Cahn方程可以用如下形式表示: &part;u/&part;t = ε²∆u + u - u³ 其中,u是待求解的函数,ε是一个小的正数,表示相变的一个特征长度。方程右端的第一项描述了扩散过程,第二项表示了自由能,第三项是非线性项。该方程描述了相变界面的演化过程。 在MATLAB中,我们可以通过数值方法来求解Allen-Cahn方程。一种常见的方法是有限差分法,通过将空间和时间离散化,将偏微分方程转化为一个差分方程组。然后利用迭代的方法,求解差分方程组的解。 具体步骤如下: 1. 定义空间和时间的离散网格; 2. 初始化初值,通常可以选择一个具有两个稳定状态解的函数作为初始条件; 3. 使用差分格式,将Allen-Cahn方程转化为差分方程; 4. 迭代求解差分方程组,直到满足收敛条件; 5. 可视化结果,展示相变界面的演化过程和稳定态解。 在MATLAB中,可以使用函数如pdepe和pdepoisson进行求解。pdepe函数可以用于求解一维和二维的偏微分方程,而pdepoisson函数用于求解泊松方程。 总之,通过使用MATLAB的数值求解方法,我们可以对Allen-Cahn方程进行求解,从而研究相变界面的演化过程和稳定态解。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

斯曦巍峨

码文不易,有条件的可以支持一下

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值