最近忙其他的工作,多日已经不弄spark,发现最新版本spark1.0有很多新特性,据说spark1.0已经抛弃了shark,直接使用spark sql了。好吧,借此机会,我也弄spark1.0,看看到底怎么玩。
首先是下载spark1.0和 scala2.11
解压之后,开始配置$SPARK_HOME/conf/spark-env.sh
export JAVA_HOME=/home/q/java7/jdk1.7.0_45/
export SCALA_HOME=/home/q/spark/scala/scala-2.11.1
SPARK_MASTER_IP=192.168.44.80
SPARK_MASTER_PORT=8070
SPARK_MASTER_WEBUI_PORT=8077
SPARK_WORKER_CORES=2
SPARK_WORKER_MEMORY=10G
SPARK_WORKER_PORT=8091
SPARK_WORKER_WEBUI_PORT=8092
SPARK_WORKER_INSTANCES=3
SPARK_WORKER_DIR=/data1/spark_worker
SPARK_DAEMON_JAVA_OPTS="-Xmx16g -Xms16g -Xmn256m -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -XX:ParallelGCThreads=10
-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:/home/q/spark/spark-1.0.0-bin-hadoop2/logs"
配置好spark-evn.sh 分发到各个slave 机器
开始启动集群,一台一台的起:
启动master
sudo -u data_spark sbin/start-master.sh
启动worker
sudo -u data_spark sbin/start-slave.sh worker spark://192.168.44.80:8070
完事可以看一下web监控页面: http://master:8077