MoE架构进军图基础模型！港大发布AnyGraph，Scaling Law再度得到验证-CSDN博客

项目地址：

https://github.com/HKUDS/AnyGraph

论文地址：

https://arxiv.org/pdf/2408.10700

实验室主页：

https://sites.google.com/view/chaoh

引言

在数据科学的广阔领域中，图数据以其独特的结构特性，在社交网络、学术研究、交通监控及生物信息学等多个前沿阵地发挥着关键作用。为了深入挖掘这些图数据的潜力，AnyGraph 应运而生，它是一款旨在打破领域界限、实现零样本预测的图基础模型创新。

AnyGraph的核心挑战与解决方案

面对图数据的多样性和复杂性，AnyGraph 精心设计了多重策略以应对以下核心挑战：

结构多样性：不同领域的图数据在结构模式上差异显著，如节点连接密度、子图分布等。AnyGraph 通过引入图混合专家（MoE）机制，利用多个专家模型并行处理，有效缓解了结构异质性问题。
特征异质性：节点特征在不同数据集中表现各异，从离散类别到连续数值，再到文本嵌入和图结构统计信息，无所不包。AnyGraph 采用自适应的图专家模型，结合特征统一化处理技术，如奇异值分解（SVD），确保模型能够灵活应对各种特征表示。
快速适应与泛化：为了快速适应新领域的数据集，AnyGraph 设计了轻量级的图专家路由机制，通过自监督学习优化专家分配，实现高效的无缝迁移。
扩展定律与性能提升：借鉴计算机视觉和自然语言处理领域的成功经验，AnyGraph 探索了图基础模型的扩展定律，发现随着模型参数和数据量的增加，其性能能够系统性地提升，展现出强大的涌现能力。

AnyGraph的技术亮点

图混合专家（MoE）：采用模块化设计，每个专家模型专注于处理特定类型的图数据，通过并行计算提升整体效率。
轻量级路由机制：基于自监督学习，自动为输入数据集匹配最优专家模型，实现快速适应和高效预测。
自适应图专家：结合 SVD 等特征统一技术，确保图专家能够处理多样化的特征表示，提升模型的泛化能力。
广泛验证：在 38 个不同领域的图数据集上进行训练和测试，验证了 AnyGraph 在零样本预测任务中的优异表现。

3.1 图MoE架构

图 MoE 架构的首要目标，是解决图数据在跨领域时的巨大异构性问题。不同数据集具有差距极大的结构模式和特征空间，使用单个网络对这些差异进行弥合十分困难。AnyGraph 采用混合专家的集成方法，利用不同的图专家模型处理具备不同特征的图数据。

针对这一架构，AnyGraph 受到图自监督学习的启发，设计了一种不需学习的专家路由机制，能够准确估计专家处理不同数据集的擅长程度。这一路由机制进一步根据历史训练记录进行分配的调整，保证各个专家模型都能得到充分的训练，避免“赢者通吃”的次优局面。

此外，MoE 架构给予了 AnyGraph 卓越的效率优势，在训练和预测的大多数过程中，AnyGraph 仅需调动其几分之一的参数进行运算，从而实现应对新数据的快速适应能力。

3.2 自适应的高效图专家模型

AnyGraph 的每个图专家模型首先要解决不同图数据在底层的结构和特征异构性问题，不同图各异的特征维度、语义空间，通过一个结构和特征的统一化过程，变成具有相同维度、相近语义的初始图表征。这一过程基于 SVD 分解以及无参数的图卷积平滑。

为了实现专家模型的自适应能力，图专家模型在初始图表征的基础上采用了同构但参数不同的多层感知机网络。

虽然单个多层感知机的建模能力有限，但通过 MoE 架构的集成，不同专家模型可以对具有不同模式的图数据进行各自的变换学习，从而减少对复杂图建模过程，例如结构学习的需求，从而达到简单、高效的效果。

3.3 高效的跨领域模型训练

为了最大化 AnyGraph 的跨图泛化能力，AnyGraph 采用了一共 38 个数据集进行训练和测试。不同数据集在训练中随机混合在一起，避免在训练过程引入 bias。

模型训练过程伴随着特征和结构的数据增强，这一过程发生在路由算法的采样，以及定期的图表征重新初始化过程中。

实验成果

4.1 零样本预测能力

AnyGraph 的零样本预测能力与现有方法的少样本预测能力、以及其他图基础模型的零样本预测能力进行对比。

4.2 扩展定律（Scaling Law）

全样本预测任务上，AnyGraph 出现了效果的收敛，但在零样本预测上，AnyGraph 的性能随着参数量和训练数据量的增长而不断增长，并且出现了突变式的增长，提示了 AnyGraph 的涌现能力。

4.3 消融实验

本实验验证了下列技术模块的有效性：MoE 架构、路由算法中的频率正则、数据增强、以及对节点特征的利用。

4.4 路由机制的可解释性

本实验可视化了路由机制对不同图数据集的分配结果，可以看到相关的数据集，例如采用同样特征构建方法的 Phot，GReads，Fitness，同源的 ML1M，ML10M，总是被分配到相同的专家模型进行处理。这验证了路由机制的有效性和可解释性。

4.5 模型效率

这项实验测试了 AnyGraph 在训练时间，以及微调的收敛速度上的优越性。凭借这 MoE 架构，AnyGraph 实现了与小规模 GNN 模型相近的训练时间，以及更快的微调效率。

总结

AnyGraph 作为一款创新的图基础模型，通过图混合专家、轻量级路由机制和自适应图专家等关键技术，成功解决了图数据的异质性挑战，实现了跨领域的零样本预测。其优异的实验表现和高效的性能提升，为图学习领域的发展注入了新的活力。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧