山东大学软件工程应用与实践——Spark(一)

 2021SC@SDUSC

目录

 2021SC@SDUSC

Spark Graph 简介

Spark GraphX总体设计

属性图

Graph的基本结构


Spark Graph 简介

  2010年,Google提出了适合复杂机器学习的分布式图计算Pregel框架。同年,CMU的Select实验室提出了GraphLab框架,Graph Lab是面向机器学习的流处理并行框架。GraphLab基于最初的并行概念实现了1.0版本,在机器学习的的流处理并行性能方面得到很大的提升,并引起业界的广泛关注。2012年GraphLab升级到2.1版本,进一步优化了其并行模型,尤其是自然图的并行性能得到显著改进。

  早在0.5版本,Spark就带了一个小型的Bagel模块,提供了类似Pregel的功能。随着对图计算需求的增大,Spark开始设计自己的分布式图计算框架Graph X。通过扩展RDD,实现了图的高层次抽象——由顶点和边构成的属性图。为了支持图运算,GraphX暴露了一个包含基础操作的集合以及对Pregel API的优化版本,现在,Graph X还在不断增加图的算法集合并简化图的分析任务。

Spark GraphX总体设计

属性图

  顶点和边都带有属性信息的图即为属性图。多个边有可能共享同一个源或者顶点。每个顶点的VertexID由一个位长度的标识符表示。Graphx不会对顶点标识符做任何排序约束。同样,每个边具有相应的源和目的顶点的标识符。当顶点和边是原生数据类型时,将他们存储在专门的数组中,这样可减小内存占用。

  在某些情况下,用户需要一张图的顶点拥有不同的属性类型。这可以通过继承来实现,例如,以用户和产品为二分图为例,我们可以根据下面代码来做。

class VertexProperty()
case class UserProperty(val name:Strings) extends VertexProperty
case class ProductProperty(val name: String,val price: Double) extends
   VertexProperty
//使用自定义属性生成的graph可能会是下面的类型:
var graph:Graph[VertexProperty, String]= null

 属性图本身是不可改变的,只能通过创建新的、期望改变的图来达到改变图中的值或者结构。属性图还支持分布式和容错。原始图的主要部分在新图中会被重用,以降低固有功能数据结构的成本。executor适用范围划分顶点的方式分割图,图中的每个partition都可以在不同的机器上失败后重建。

Graph的基本结构

abstract class Graph[VD:ClassTag, ED:ClassTag] protected ()extendd Serializable{
    @transient val vertices:VertexRDD[VD]
    @transient val edges:EdgeRDD[ED]
    @transient val triplents:RDD[EdgeTriplent[VD,ED]]

VertexRDD[VD]EdgeRDD[ED]分别继承了 RDD[( Vertex ID, VD)]RDD[Edge[ED]], 并围绕图形计算和存储,提供了额外的功能的内部优化。假设要构建一个属性图,其中包括 对GraphX项目的各种合作者。顶点属性可能包含用户名和职业,可以在边上添加注释描述和作者间的关系。

可以使用文件、RDD等多种方式构成属性图。最通用的方法可能是使用Graph对象。

//假设SparkContext巳经构建完成
val sc: SparkContext
//为所有顶点创建RDD
val users: RDD[(Vertexld, (String, String))] =
sc. parallelize (Array ( (3L, ("rxin**, "student")), (7LZ (n jgonzal'1, "postdoc1')),
(5L, (•'franklin", "prof") ) , (2LZ ("istoica", “prof”))))
//为所有边创建RDD
val relationships: RDD[Edge[String]]=
sc.parallelize(Array(Edge(3L, 7L, "collab"), Edge(5L, 3L, "advisor"),
Edge(2L, 5L, Mcolleague"), Edge(5L, 7L, "pi")))
//定义一个默认用户与未知的用户的关系
val defaultuser = (MJohn Doe", "Missing")
//构建初始化的Graph
val graph = Graph(users, relationships, defaultuser)

在上边的例子中,我们看到边同时拥有源顶点的WrtexID和目的顶点的VertexlD,还拥有自 身的属性。还能直接通过Graph对象对其中的顶点和边进行条件过滤和计数。

val graph: Graph[ (String, String), String] // 上边例子中构建的Graph
//对所有职位是postdocs的用户计数
graph.vertices.fi1ter { case (id, (name, pos)) => pos == "postdoc" }.count
//统计出源顶点的Vertexld大于目标顶点的Vertexld的边数
graph.edges.filter(e => e.srcld > e.dstld).count
graph.edges.filter { case Edge(src, dst, prop) => src > dst }.count

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值