GraphX官网例子Analytics分析

猪猡猪猡猪

已于 2023-07-14 10:48:50 修改

阅读量188

点赞数

分类专栏： Spark 文章标签： spark

于 2023-07-14 10:46:55 首次发布

本文链接：https://blog.csdn.net/qq_53336526/article/details/131718582

版权

Spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

这个示例代码用于运行图算法。该程序支持不同的任务类型，例如计算PageRank、计算连通组件和计算三角形的数量。

这段代码检查了命令行参数的数量是否足够，并在不满足条件的时候打印出使用说明。如果args数组长度小于2，表示命令行参数不足，无法执行相应的任务。在这种情况下，会将使用说明字符串赋值给usage变量，并使用System.err.println方法将其打印到标准错误流中。通过调用System.exit（1）来终止程序的执行。

这段代码用于解析命令行参数，并将任务类型、文件名以及其他选项保存到相应的变量中。arg(0)表示第一个命令行参数，即任务类型，并将其赋值给taskType变量。args(1)表示第二个命令行参数，即文件名，将其赋值给fname变量。arg.drop（2）返回去除前两个元素之后的剩余命令行参数，然后使用map方法对每个参数进行处理。

对于每个参数，使用dropWhile（_==’-’）去除开头的连字符，然后使用split（‘=’）将参数按等号=分割成键值对数组。

使用模式匹配，case Array（opt，v）=> （opt，v），将键值对数组中的第一个元素作为键，第二个元素作为值，构成元组。如果模式匹配失败，即参数不是有效的键值对格式，则抛出一个异常。最后，使用mutable.Map(options：_*)构建一个可变的Map，将解析得到的选项存储其中。

通过以上代码，可以获取任务类型、文件名以及其他选项，并在后续的代码中使用它们进行相应的处理和配置。

这段代码创建了一个SparkConf对象，并注册了GraphX所需要的Kryo类。

Val conf = new SparkConf()创建了一个新的SparkConf对象，用于配置Spark应用程序。GraphXUtils.registerKeyoClasses(conf)注册了GraphX所需的Kryo类。这样做是为了提高序列化和反序列化性能，以及减少网络传输的开销。

接下来，代码使用options来获取一些配置选项。

val numEPart = options.remove("numEPart").map(_.toInt).getOrElse{...}从options中移除键为”numEPart”的选项，并将其转换为整数类型。如果不存在该选项，则会执行{...}中的代码块，在控制台打印"Set the number of edge partitions using --numEPart."使用--numepart设置边缘分区的数量。然后终止程序的运行。

options.remove("edgeStorageLevel").map(StorageLevel.fromString(_)).getOrElse(StorageLevel.MEMORY_ONLY) 从options中移除键为“edgeStorageLevel”的选项，并将其值转换为StorageLevel枚举类型的实例。如果不存在该选项，则返回默认值StorageLevel.MEMORY_ONLY

options.remove("vertexStorageLevel").map(StorageLevel.fromString(_)).getOrElse(StorageLevel.MEMORY_ONLY) 从options中移除键为“vertexStorageLevel”的选项，并将其值转换为StorageLevel枚举类型的实例。如果不存在该选项，则返回默认值StorageLevel.MEMORY_ONLY

通过以上代码，可以获取和配置一些 Spark 和 GraphX 相关的属性和选项，以便后续使用。

这代代码执行的主要操作如下：

对于任务类型“pagerank”

1. 从options中获取“tol”选项的值，并将其转化为浮点数类型。若不存在该选项，则默认0.001。将其赋值给tol变量

2. 从options中获取“output”选项的值，并将其赋值给outFname变量。如果不存在该选项，则将outFname设置为空字符串。

3. 从options中获取“numlter”选项的值，并将其转换为整数类型。如果不存在该选项，则将numIterIOpt设置为None。

4. 打印出PageRank相关信息的标题。

5. 创建一个 SparkContext 对象，设置应用程序名称为 "PageRank($fname)"。

6. 使用 GraphLoader.edgeListFile 方法加载边列表文件并创建图。将图进行缓存。

7. 根据指定的分区策略对图进行分区。

8. 打印出图的顶点数量和边的数量。

9. 根据是否指定了迭代次数，运行 PageRank 算法，并将结果缓存到 pr 变量中。

10. 打印出总排名

11. 如果制定了输出文件名，则将页面的PageRank保存到文件中。

12. 停止SparkContext。

对于任务类型为“cc”的时候，代码执行以下操作：

使用options.foreach遍历剩余的选项，并抛出异常，因为这些选项不是有效的选项。
打印出连通组件相关信息的标题
创建一个SparkContext对象，设置应用名称为“ConnectedComponents($fname)”
使用 GraphLoader.edgeListFile 方法加载边列表文件并创建图。将图进行缓存。
根据指定的分区策略对图进行分区。
运行 Connected Components 算法，并将结果保存到 cc 变量中。
打印出组件的数量。
停止 SparkContext。

这段代码是使用Spark进行三角形计数的一个案例。首先，对给定的选项进行检查，如果选项无效，则抛出IllegalArgumentException异常。然后，打印程序的标题和分隔线。

接下来，创建了一个SparkContext，并根据指定的参数加载图数据。加载的图数据需要被分区，并且将被缓存起来。然后，利用TriangleCount算法对图进行三角形计数。最后，将计算出的三角形数量打印出来，并停止SparkContext的运行。

如果希望调用此应用程序，需要提供一下参数：

任务类型（taskType）：指定要执行的任务类型，可选的值有 "pagerank"、"cc" 和 "triangles"。

文件名（file）：指定输入文件的路径。

其他选项（options）：根据任务类型和需求，可以提供一些额外的选项。

执行PageRank算法，并将结果保存到指定文件中

spark-submit --class org.apache.spark.examples.graphx.Analytics \

path/to/your/jar.jar pagerank path/to/input/file.txt \

--numEPart=4 --output=path/to/output/file.txt

计算连通组件，并打印出每个顶点所属的连通组件

spark-submit --class org.apache.spark.examples.graphx.Analytics \

path/to/your/jar.jar cc path/to/input/file.txt --numEPart=4

计算图中的三角形数量，并打印出结果。

spark-submit --class org.apache.spark.examples.graphx.Analytics \

path/to/your/jar.jar triangles path/to/input/file.txt --numEPart=4

请确保将上述命令中的"path/to/your/jar.jar"替换为你的jar文件的实际路径，将"path/to/input/file.txt"替换为你的输入文件的实际路径，将"path/to/output/file.txt"替换为你希望保存输出结果的文件路径。另外，你还可以根据需要添加其他选项。

总结：

这些算法都是基于图的结构和连接关系展开计算的。PageRank算法用于评估节点的重要性，连通组件算法用于确定节点之间的连通性，三角形计数算法用于统计节点之间的三角形关系。它们都可以通过Apache Spark和GraphX库进行高效的分布式计算。实际实现中可能还会包括一些优化策略和细节处理，以提高性能和准确性。

PageRank算法。PageRank算法通过迭代计算来评估每个顶点的重要性。其具体步骤为：初始化每个顶点的PageRank值为1.0。在每次迭代中，对于每个顶点，计算他的PageRank值。计算公式为：PR(v) = (1 - dampingFactor) + dampingFactor * sum(PR(u) / outDegree(u))，其中v为当前的顶点，u为与v相连的顶点，outDegree(u)表示顶点u的出度。迭代执行上述计算步骤，直到达到指定的最大迭代次数或收敛条件满足。最后将每个顶点的PageRank值输出。

连通组件算法。连通组件算法用于确定图中各个顶点所属的连通组件。具体步骤为：从一个顶点开始，遍历图中的边，找到与该顶点相连的所有其它顶点，并将它们标记为同一个连通组件。继续选择一个未被标记的顶点，并重复上述步骤，直到所有顶点都被标记。最后，输出每个顶点所属的连通组件。

三角形计数算法：三角形计数算法用于计算图中的三角形数量。具体步骤如下：遍历图中的每个顶点V，并考虑其邻居顶点U。对于每个邻居顶点U，再遍历它的邻居顶点W，并检查是否存在V到W的边，从而形成一个三角形。统计所有找到的三角形数量，并输出结果。