Graph Mixture of Experts Learning on Large-Scale Graphs with Explicit Diversity Modeling

最新推荐文章于 2024-10-17 17:17:28 发布

mumukehao

最新推荐文章于 2024-10-17 17:17:28 发布

阅读量644

点赞数 20

分类专栏：异配图文章标签：深度学习异配图

本文链接：https://blog.csdn.net/chairuilin/article/details/141098049

版权

异配图专栏收录该内容

58 篇文章 3 订阅

订阅专栏

发表于:neurips23
推荐指数: #paper/⭐⭐⭐
和node-wise 那个思路一样(或者说node-wise是这个的进一步延伸)
但是,他的公式有点让人不能最清晰的读懂(似懂非懂)
文章配图

主干模型

即为每个节点(或者每个子图)选择相应的专家
模型是通过采样子图来构建的.
GMoE自适应选择1层或者2层的专家来动态的捕获端或长的邻居
$h_i^{\prime}=\sigma\left(\sum_{o=1}^m\sum_{j\in N_i}G(h_i)_oE_o\left(h_j,e_{ij},W\right)+\sum_{o=m}^n\sum_{j\in N_i^2}G(h_i)_oE_o\left(h_j,e_{ij},W\right)\right)$
m是1跳专家数,m-n表示二跳专家数. $E_{o}$ 表示第o个消息传递(即专家GNN).G是门控函数去生成多倍的决策分数, $G(h_{i})_{o}$ 表示第o层G的输出特征.具体的表示如下:
$G(h_i)=\mathrm{Softmax}(\mathrm{TopK}(Q(h_i),k)),\\Q(h_i)=h_iW_g+\epsilon\cdot\mathrm{Softplus}(h_iW_n),$
k表示选择的专家数. $\epsilon\in\mathcal{N}(0,1)$ 表示标准高斯噪音. $h_{i}$ 的维度为 $b\times s$ ,其中b为batchsize,s为向量维度. $W_g\in\mathbb{R}^{s\times n}$ , $W_n\in\mathbb{R}^{s\times n}$ .(可以理解为:通过W,让 $h_{i}$ 映射到 $b\times n$ 上,即可以评价n维的专家.)

模型的问题以及增补

但是,这会行程一个问题:首先被选中的专家会比其他专家的权重概率大.因此,为了让专家在初始时设置的更公平,我们可以用如下的设置去平衡:
$\operatorname{Importance}(H)=\sum_{h_i\in H,g\in G(h_i)}g,\begin{array}{c}L_{\text{importance}}(H)=CV(\operatorname{Importance}(H))^2\end{array}$
importance(H)被定义整个batch节点门控值g的和.CV代表了变量的系数.L测量重要性分数.
我们让 $G(h_{i})\neq_{}0$ 当且仅当 $Q(h_{i})_{o}$ 比 $Q(h_{i})$ 的第k大个元素大.(即前k个专家才有值,后面的全为0)
$P(h_i,o)=Pr(Q(h_i)_o>\mathrm{kth_ex}(Q(h_i),k,o))$
其中,kth_ex()代表除了自己外第k-th大的元素. $P(h_{i},o)$ 可以被简化为:
$P(h_i,o)=\Phi\left(\frac{h_iW_g-\mathrm{kth_ex}(Q(h_i),k,o)}{\text{Softplus}(h_iW_n)}\right),$
$\phi$ 是标准正态分布的CDF.
$L_{\mathrm{load}}(H)=CV(\sum_{h_i\in H,p\in P(h_i,o)}p)^2.$
其中,p是batch的node-wise近似性.
$L=L_{EM}+\lambda(L_{\mathrm{load}}(H)+L_{\text{importance}}(H))$
$L_{EM}$ 表示MOE具体任务的期望最大化损失. $\lambda$ 是平衡超参