Spark安装部署
登录Spark官网下载页面(http://spark.apache.org/downloads.html)下载Spark。
这里选择最新的Spark 1.5.0版spark-1.5.0-bin-hadoop2.6.tgz(Pre-built for Hadoop2.6 and later)。
然后解压spark安装包至本地指定目录:
tar zxvf spark-1.5.0-bin-hadoop2.6.tgz -C /usr/local/ln -s spark-1.5.0-bin-hadoop2.6 spark
下面让我们开始Spark的配置之旅吧。
1)打开/etc/profile,末尾加入:
export SPARK_HOME=/usr/local/spark
PATH=$PATH:${SPARK_HOME}/bin
关闭并保存profile,然后命令行执行source /etc/profile使配置生效。
2)打开/etc/hosts,加入集群中Master及各个Worker节点的ip与hostname配对。
x.x.x.x Master-name
x.x.x.x worker1
x.x.x.x worker2
x.x.x.x worker3
……
3)进入/usr/local/spark/conf,在命令行执行:
cp spark-env.sh.template spark-env.shvi spark-env.sh
末尾加入:
export JAVA_HOME=/usr/lib/jvm/java-1.7
export SCALA_HOME=/usr/local/scala
export SPARK_MASTER_IP=112.74.197.158<以本机为例>
export SPARK_WORKER_MEMORY=1g
保存并退出,执行命令:
cp slaves.template slavesvi slaves
在其中加入各个Worker节点的hostname。这里以四台机器(master、worker1、worker2、worker3)为例,那么slaves文件内容如下:
worker1
worker2
worker3