启动集群
–启动standalone模式下master server(启动完毕后可以通过http://master:8080来看你对应的spark-url,其中master对应你机器的hostname)
./sbin/start-master.sh
–启动one or more works并且将他们连接到master
./sbin/start-slaves.sh
–全部启动
./sbin/start-all.sh
以上对应的关闭为: ./sbin/stop-all.sh
启动时候对于内存、内核使用的配置可以在conf/spark-env.sh来设置,参数可以参考官方文档:http://spark.apache.org/docs/latest/spark-standalone.html
将应用发布到集群
在提交应用到spark集群上,仅仅是传递master的 spark://IP:port URL 作为sparkContext constructor,运行一个交互的spark shell可以通过以下命令:
./bin/spark-shell –master spark://IP:PORT
也可以传递参数–total-executor-cores 来控制集群上spark-shell使用的内核数。
启动spark程序
可以通过spark-submit脚本来进行启动一个spark应用程序到集群。
具体参数可以参照官方配置文件说明:
http://spark.apache.org/docs/latest/configuration.html
如果你提交过的应用程序一直不能执行成功,那么你就可以kill掉,相应的指令:
./bin/spark-class org.apache.spark.deploy.Client kill
其中driver ID可以通过Master web UI在http://:8080 来进行查看。
你可以在SparkConf中设置相关参数如:
val conf = new SparkConf()
.setMaster(...)
.setAppName(...)