GraphX主要的接口详解

最新推荐文章于 2024-08-20 17:58:18 发布

Xeon-Shao

最新推荐文章于 2024-08-20 17:58:18 发布

阅读量2.2k

点赞数

分类专栏： Spark 文章标签： spark GraphX

Spark 专栏收录该内容

92 篇文章 1 订阅

订阅专栏

GraphX主要提供了如下图所示的5类操作接口：

为了详细了解每一个图运算符的功能，我在Spark集群中，运行了这些方法，其中采用Spark GraphX官方网站提供的图，进行操作，如下：

首先，在Spark Shell中运行一下代码，存储这张图：

import org.apache.spark._
import org.apache.spark.graphx._
// To make some of the examples work we will also need RDD
import org.apache.spark.rdd.RDD
// Assume the SparkContext has already been constructed
//val sc: SparkContext
// Create an RDD for the vertices
val users: RDD[(VertexId, (String, String))] =
  sc.parallelize(Array((3L, ("rxin", "student")), (7L, ("jgonzal", "postdoc")),(5L, ("franklin", "prof")), (2L, ("istoica", "prof"))))
// Create an RDD for edges
val relationships: RDD[Edge[String]] =
  sc.parallelize(Array(Edge(3L, 7L, "collab"),    Edge(5L, 3L, "advisor"),
Edge(2L, 5L, "colleague"), Edge(5L, 7L, "pi")))
// Define a default user in case there are relationship with missing user
val defaultUser = ("John Doe", "Missing")
// Build the initial Graph
val graph = Graph(users, relationships, defaultUser)

1. numVertices: Long = graph.vertices.count()，计算图的顶点总数,返回Long型

2. numEdges: Long = graph.edges.count()，计算图的边总数

3. degrees: VertexRDD[Int]，计算图中各顶点的度

4. mapVertices[VD2: ClassTag](map: (VertexId, VD) => VD2): Graph[VD2, ED]，调用Spark中的map操作，更新顶点的属性值，由VD-->VD2

原VD：

计算后，VD2：

5. mapEdges[ED2: ClassTag](map: Edge[ED] => ED2): Graph[VD, ED2]，调用Spark中的map操作更新边的属性值，由ED-->ED2

6. mapTriplets[ED2: ClassTag](map: EdgeTriplet[VD, ED] => ED2): Graph[VD, ED2], 调用Spark中的map操作更新边的属性值，由ED-->ED2

7. reverse: Graph[VD, ED]，改变图中边的方向，即把srcId与dstId对换

8. mask[VD2: ClassTag, ED2: ClassTag](other: Graph[VD2, ED2]): Graph[VD, ED]，对图this与图other，保留两者公共的点和边，并保留this中点和边的属性。

9. subgraph(epred: EdgeTriplet[VD,ED] => Boolean = (x => true), vpred: (VertexId, VD) => Boolean = ((v, d) => true)): Graph[VD, ED], 求子图运算，保留点和边满足如下关系：

{
V' = {v : for all v in V where vpred(v)}
E' = {(u,v): for all (u,v) in E where epred((u,v)) &&
vpred(u) && vpred(v)}
}

10. groupEdges(merge: (ED, ED) => ED): Graph[VD, ED],根据merge函数，将图中多重边的属性值进行合并，保证图中对应（srcID，dstID）只有一条边。

11. mapReduceTriplets[A: ClassTag]( mapFunc: EdgeTriplet[VD, ED] => Iterator[(VertexId, A)], reduceFunc: (A, A) => A, activeSetOpt: Option[(VertexRDD[_], EdgeDirection)] = None ): VertexRDD[A]，

对EdgeTriplet中的每个元素进行计算，根据reduceFunc函数中定义的运算，得到计算后的VertexRDD

参数mapFunc：用户自定义函数，返回0或多个消息给邻居顶点

参数reduceFunc：用户自定义函数，对map阶段收集到的结果进行汇总

参数activeSetOpt：可选项，限定mapFunc函数的运行条件，当active vertice与EdgeDirection（In, Out, Both, Either） == true，才执行mapFunc函数