spark的启动方式有两种,一种单机模式(Local),另一种是多机器的集群模式(Standalone)
Standalone
搭建:
准备:hadoop001,hadoop002两台安装spark的机器
1) 在$SPARK_HOME/conf中新建 spark-env.sh,并加入以下内容
SPARK_MASTER_HOST=hadoop001 #设置master的host SPARK_WORKER_CORES=2 #设置core的个数给worker SPARK_WORKER_MEMORY=2g #设置worker内存 SPARK_WORKER_INSTANCES=1 #一个worker启动几个实例
2) 在$SPARK_HOME/conf/slaves中写入(前提是hosts文件中对host有映射)
hadoop002
3)sbin/start-all.sh启动所有的节点
4)查看hadoop001:8080
可以看出有;两个worker,分别在108和109的机器上,4个core(每个worker两个core),worker占用内存共4G。
使用:
在bin目录下
命令: ./spark-shell --master spark://hadoop001:7077
解释:在主节点master下启动一个shell命令
在webUI中可以看出,产生一个app,默认将所有的core都使用完毕,而且默认每个core使用1G的内存
Local
Local很简单,不需其他配置,在bin目录下 使用命令
./spark-shell --master local[2]
在本机启动一个master 通过本地的两个线程启动