GraphX 图数据建模和存储_graph数据对象如何存储到计算机中-CSDN博客

本文详细介绍了GraphX如何对图数据进行建模和存储，包括通过GraphLoader入口加载数据，采用EdgeRDD和VertexRDD存储结构，以及分区策略和高效数据结构的运用，如PrimitiveVector和EdgePartition。

背景

简单分析一下GraphX是怎么为图数据建模和存储的。

入口

可以看GraphLoader的函数，

def edgeListFile(
      sc: SparkContext,
      path: String,
      canonicalOrientation: Boolean = false,
      numEdgePartitions: Int = -1,
      edgeStorageLevel: StorageLevel = StorageLevel.MEMORY_ONLY,
      vertexStorageLevel: StorageLevel = StorageLevel.MEMORY_ONLY)
    : Graph[Int, Int]

path可以是本地路径(文件或文件夹)，也可以是hdfs路径，本质上是使用sc.textFile来生成HadoopRDD的，numEdgePartitions是分区数。
Graph的存储是分EdgeRDD和VertexRDD两块，可以分别设置StorageLevel。默认是内存。
这个函数接受边文件，即’1 2’, ‘4 1’这样的点到点的数据对组成的文件。把这份文件按分区数和存储level转化成一个可以操作的图。