大数据开发:Spark GraphX图计算入门

Spark框架下,除了支持批处理和流处理,也提供图计算功能,而图计算功能主要由Spark GraphX来提供。而近些年来说,图计算在大数据领域,也得到越来越多的应用。今天的大数据开发学习分享,我们就来讲讲Spark GraphX图计算入门。
 

大数据学习:Spark GraphX图计算入门


关于图计算

关于图计算,其实是不能单单从字面上去理解。所谓的图计算的“图(Graph)”,其实是指的一种网络,是一种适合表现事物之间关联关系的数据结构,而非大众意义上的图片(Image)。

图计算目前广泛应用于公安系统和银行金融领域。通过社交网络分析,可以打击犯罪团伙,金融欺诈、信用卡盗刷等。通过人与人之间的关联关系推断,还可以用于理财产品推荐等场景。

图的基本概念

1、图的组成

图的基本组成是顶点(vertex)和边(edge)。

2、图的分类

有向图和无向图:根据边是否有方向,图可以分成为有向图和无向图。有向图的边从源顶点出发,指向目标顶点。在无向图中,一个顶点上的边的数量叫做这个顶点的度。在有向图中,一个顶点上出发的边的数量叫做这个顶点的出度,汇集到一个顶点上的边的数量叫做这个顶点的入度。

有环图和无环图:如果有向图中存在一些边构成闭合的环,称为有环图,反之为无环图。有环图上设计算法需要考虑终止条件,否则算法可能会沿着环永远循环下去。

多重图和伪图:如果两个顶点之间可以有多条平行边,称为多重图。如果存在自环,即由一个顶点指向自己的边,则称为伪图。Graphx的图都是伪图。

属性图和非属性图:如果顶点和边是包括属性的,称为属性图,否则是非属性图。非属性图作用不大。通常顶点和边至少有一个是包括属性的,Graphx的图都是属性图。

二分图:如果图的顶点被分成两个不同的子集,边的源顶点始终来自其中一个子集,目标顶点始终来自另外一个子集。这种图称为二分图。

3、图的表示

如果图的边是没有属性的,可以用稀疏的邻接矩阵进行表示。在Graphx中,用顶点属性表VertexRDD和边属性表EdgeRDD联合来表示图。

图的算法

常见的图算法大致可以分为:

路径搜索算法,例如DFS&BFS、最短路径、最小生成树、随机游走等;

中心性算法,例如DegreeCentrality、ClosenessCentrality、BetweennessCentrality、PageRank等;

社群发现算法,例如MeasuringAlgorithm、ComponentsAlgorithm、LabelPropagation Algorithm、LouvainModularity Algorithm等。

关于大数据开发学习,Spark GraphX图计算入门,以上就为大家做了简单的介绍了。图计算应用在大数据的实际场景当中,正在面临着越来越多的应用,而Spark GraphX重要性值得关注。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值