Spark-shell启动后我们可以在控制台看到起运行信息:
点击作业ID即可查看Spark shell运行信息:
下面我们就开始在集群上通过读取hdfs文件的方式来构建graph对象,首先要做的就是引入相关的包,如下所示:
然后通过加载hdfs中的web-Google.txt来构建graph,如下所示:
在load的过程中,我们可以看一下Spark shell的web控制台:
此时我们发现只有一个partition在运行:
本文转自http://book.51cto.com/art/201409/451608.htm,所有权力归原作者所有。