作者介绍:钟健龙博士,2013年毕业于Xtra, 现供职于GraphSQL Inc,主要研究兴趣为GPU计算、高性能数据处理与分析。本文主要用于学术交流,所发言论不代表所供职的单位。
大规模图数据(graph data)的计算与存储是当下工业界和学术界都非常热门的话题。就在一周前,美国苹果公司两亿美元低调收购了成立只有三年之久的机器学习公司Turi,布局人工智能和机器学习领域。而Turi的起源正是图计算领域大名鼎鼎的GraphLab【1】项目。从Turi官网可以看到Turi的产品主要运用在推荐系统、顾客精确细分、反欺诈等领域。这些领域面临的数据往往缺乏结构(unstructured data)而且内部关系紧密而复杂,传统的关系数据库面对这种类型的数据非常吃力,尤其是当今数据规模越来越巨大。本文的主角,像GraphLab、Pregel【2】这类把数据存成图结构的并行图计算框架(Parallel Graph Processing Framework),却能为这种数据的提供实时或者准实时的处理性能。
Xtra小组从2010年开始进行并行图计算框架的研究,我们选择的突破方向是引入计算性能比传统CPU强悍千百倍的GPU(Graphics Processing Unit)。2013年我们发布了世界上首个完全基于GPU的并行图数据处理框架Medusa【3】, 并且开源于 https://github.com/JianlongZhong/Medusa, “Medusa: Building GPU-based Parallel Sparse Graph Applications with Sequential C/C++ Code”.