spark里使用scala_如何使用带Scala的Apache Spark GraphX入门

最新推荐文章于 2022-05-24 22:56:07 发布

danpie3295

最新推荐文章于 2022-05-24 22:56:07 发布

阅读量514

点赞数

文章标签： java 大数据 python spark 编程语言

版权

spark里使用scala

这篇文章将帮助您开始在MapR沙盒上将Apache Spark GraphX和Scala一起使用。 GraphX是用于图并行计算的Apache Spark组件，它基于称为图论的数学分支建立。它是一个位于Spark核心之上的分布式图形处理框架。

图形是用于对对象之间的关系进行建模的数学结构。图由连接它们的顶点和边组成。顶点是对象，边缘是它们之间的关系。

有向图是边缘具有与之关联的方向的图。有向图的一个示例是Twitter关注者。用户Bob可以跟随用户Carol，而并不意味着用户Carol跟随用户Bob。

正则图是每个顶点具有相同数量边的图。常规图的一个示例是Facebook朋友。如果Bob是Carol的朋友，那么Carol也是Bob的朋友。

GraphX通过弹性分布式属性图扩展了Spark RDD。

属性图是有向多重图，可以有多个平行的边。每个边和顶点都有与之关联的用户定义的属性。平行边允许相同顶点之间存在多种关系。

在本活动中，您将使用GraphX分析航班数据。

作为简单的开始示例，我们将分析三个航班。对于每个航班，我们都有以下信息：

在这种情况下，我们将机场表示为顶点，将路线表示为边。对于我们的图形，我们将有三个顶点，每个顶点代表一个机场。机场之间的距离是一个路线属性，如下所示：

本教程将在包含Spark的MapR沙盒上运行。

如

关注