Spark计算引擎可以运行在standalone,yarn,mesos上。
spark 版本 spark-1.6.0-bin-hadoop2.6.tgz
三个结点 node001 192.168.189.37
node002 192.168.189.38
node003 192.168.189.39
standalone 搭建
node001:
1.tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz - C /opt
2. 配置 /opt/spark-1.6.0-bin-hadoop2.6/conf下的
slaves: node002
node003
spark-env. sh:export SPARK_MASTER_IP=node001
设置master结点是node001
export SPARK_MASTER_PORT=7077
设置master的port为7077
export SPARK_WORKER_MEMORY=3g
设置每一个worker进程管理3G内存,是管理不是一下子都用了
export SPARK_WORKER_CORES=2
设置每个worker进程管理2个core
core代表不支持超线程的core,一个服务器比如有24个core,要是支持超线程就是相当于有48个普通的core
一般我们只是使用75%core,因为其他master或者别的也需要资源
export SPARK_WORKER_INSTANCES=1
每一个物理服务器上只启动一个work进程
3 scp -r spark-1.6.0-bin-hadoop2.6 node002:`pwd`
scp -r spark-1.6.0-bin-hadoop2.6 node003:`pwd`
测试 sbin/start-all.sh
修改spark的webui端口,不然跟tomcat冲突
export SPARK_MASTER_WEBUI_PORT=8888
node001:cd 到bin下 执行./spark-submit --master spark://node005:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 500
500个task 试试