[论文笔记] uGrapher: High-Performance Graph Operator Computation via Unified Abstraction for GNN

PeakCrosser

已于 2023-11-01 15:58:19 修改

阅读量264

点赞数 1

分类专栏： Graph Learning 文章标签：人工智能论文阅读

于 2023-06-22 14:09:23 首次发布

本文链接：https://blog.csdn.net/LostUnravel/article/details/131340549

版权

Graph Learning 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

uGrapher: High-Performance Graph Operator Computation via Unified Abstraction for Graph Neural Networks

uGraper: 通过图神经网络的统一抽象实现高性能图算子计算 [Paper] [Presentation]
ASPLOS’23

摘要

提出了 uGrapher, 一个为不同图算子和数据集实现通用高性能的统一接口.

现有 GNN 框架易集成
将图算子的计算和调度解耦
构建了一个结合图张量和图循环语义的特定于 GNN 的算子抽象
探索基于抽象的各种调度策略, 权衡并行性、局部性与效率

1 介绍

GNN 模型:

具有巨大的体系结构空间, 使用的图算子的可变性和复杂性迅速增加.
在具有独特特征的不同图结构数据集上进行操作, 并对不同的图数据集和图算子表现出不同的模式和瓶颈, 从而缺乏并行的自适应性.
不同于传统图算法, 没有边界结点带有的复杂控制流, 而是在图遍历时涉及特征维度和更复杂的计算.

现有 GNN 框架:
依赖于手写实现; 只能在有限的 GNN 模型和数据集范围内实现最佳性能; 原因在于对不同的图算子和输入图使用了固定的执行策略.

提出了 uGrapher, 一个支持图算子的统一高性能接口, 可以轻松集成到现有 GNN 框架中.

将图算子的计算和调度解耦, 以适应不同 GNN 算子和数据集
将图算子抽象为嵌套稀疏-稠密 for 循环的统一形式
- 嵌套循环最内层: 捕获不同图算子的语义
- 嵌套循环最外层: 提供统一全面的并行空间的探索机会
基于统一抽象, 探索 GPU 上不同图算子对应的不同循环变换的各种执行策略及其权衡关系
为上层 GNN 框架提供统一易用的 API
灵活可扩展, 提供高性能的自动 CUDA 代码生成.

本文贡献:

针对不同的图算子和数据集分析了现有 GNN 框架在内核级别的低效性
针对 GNN 中的所有图算子提出了一个统一抽象, 其为 GPU 上不同并行执行策略定义了一个全面的优化空间.
基于统一抽象, 能够自动为所有图算子提供高性能的 CUDA 代码生成, 而只需简单的算子信息, 带来显著的灵活性和可扩展性.
设计了一个统一 API uGrapher, 支持现有框架中的所有图算子并探索其在不同数据集上的最佳并行执行策略.

2 背景和动机

2.1 图神经网络

GNN 模型的输出是输入图中每个结点的 $d$ 维嵌入向量.

GNN 模型:
图 $G = (V, E)$ 上的操作可分为三个阶段:

$u$ , $v$ : 结点索引
$e$ : 结点 $u$ 和 $v$ 之间的边的索引
$h_v$ : 结点 $v$ 的特征嵌入
$m_e$ : 边 $e$ 关联的消息

图算子定义:
图算子: 需要遍历输入图结构的运算符.
图算子包括 $m ess a g e - cre a t i o n$ (消息创建)、 $m ess a g e - a gg re g a t i o n$ (消息聚合), 以及 $f u se d - a gg re g a t i o n$ (融合聚合) 三类.