目前图计算系统主要分为两大流派,general purpose和graph-specific。General purpose系统底层基于RDD等通用数据抽象,基于通用大数据平台(如Spark)将图计算操作转换为retational operator等通用操作,而graph-specific系统将数据直接表示成图结构,并为用户提供访问、操作点、边的图结构等接口。为了比较general purpose和graph-specific 图计算系统在图分析任务上的计算效率,我在阿里云拉起了配置为16核CPU,248GB内存的4台ECS,设计了三组比较实验,选取了general purpose代表性图计算系统GraphX和graph-specific代表性图计算系统Gemini和GraphScope。
数据上,我选取了来自LDBC数据集的com-friendster, datagen-9.0_fb, datagen-9.1_fb,datagen-9.2_zf和graph500作为实验数据,以下为实验数据的基本信息:
com-friendster:65608366个点,1806067835条边
datagen-9.0_fb:12857671个点,1049527225条边
datagen-9.1_fb: 16087483个点,1342158397条边
datagen-9.2_zf: 434943376个点,1042340732条边
graph500: 32804978个点,1051922853条边