一、安装和配置
下载并解压Spark到指定目录,如果没有安装JDK、Scala,需要先下载JDK、Scala到指定目录,并设置SPKARK_HOME(JAVA_HOME、SCALA_HOME).
二、启动Spark或Spark集群
如果只是在单节点上运行Spark,无需启动Spark,直接按『三、运行例子程序』运行即可。
如若需要在集群上运行Spark例子程序,需要先启动Spark集群。将已经可以互相无密码登陆的从节点名(或IP地址)加入到主节点的conf/slaves文件中,再将配置好的主节点的Spark的整个目录拷贝到其他所有从节点。在直接运行启动集群脚本:
./start-all.sh
# 关闭集群
./stop-all.sh
二、运行例子程序
1. 在单节点上运行
在单个节点上运行例子无需启动集群:
./bin/run-example SparkPi 10
./bin/run-example graphx.LiveJournalPageRank follower.txt --numEPart=2
# 运行Python的例子程序
./bin/spark-submit examples/src/main/python/pi.py 10
./bin/spark-submit examples/src/main/python/PageRank.py follower.txt 10
2. 提交到集群上运行
./bin/spark-submit --master spark://A281:7077 --class org.apache.spark.examples.graphx.LiveJournalPageRank lib/spark-examples-1.6.0-hadoop2.6.0.jar followers.txt --numEPart=2