环境
spark1.6.1
scala-2.11.8
hadoop2.6.2
zookeeper3.4.6
其他版本的hadoop,可以到这里下载对应版本的spark
http://spark.apache.org/downloads.html
下载Scala,Spark是Scala语言实现的,运行时会依赖Scala环境
http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz
解压安装scala,配置环境变量
vi /etc/profile
export SCALA_HOME=$SCALA_HOME
PATH=$PATH:$SCALA_HOME/bin
保存
source /etc/profile
验证
scala -version
scala
scala > var str = "a is"+"a"
相同的scala安装目录全部复制到其它spark的slave节点,目录结构保持一致
在master主机配置spark
将spark解压,配置环境变量
vi /etc/profile
export SPARK_HOME=$SPARK_HOME
PATH=$PATH:$SPARK_HOME
使配置生效
source /etc/profile
进入spark conf目录
cd SPARK_HOME
ls
cd conf
ls
修改slaves文件
vi slaves
slave01
slave02
slave03
配置spark-env.sh
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
在最下面添加
export JAVA_HOME=
export SCALA_HOME=
export SPARK_MASTER_IP=主节点的IP地址
export SPARK_WORKER_MEMORY=1g(spark工作节点使用的最大内存)
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
将spark文件夹copy到其它机器
scp -r $SPARK_HOME slave01:~
scp -r $SPARK_HOME slave02:~
scp -r $SPARK_HOME slave03:~
在启动spark分布式集群前,首先启动slave01,slave02,slave03三个zookeeper,然后启动hbdfs
启动spark分布式集群并查看信息
cd $SPARK_HOME
cd sbin
./start-all.sh
查看
jps
页面查看集群状况
进spark集群的web管理页面,访问master:8080(要关闭防火墙,或者把端口打开)
进入spark的bin目录,启动spark-shell控制台
./spark-shell
访问http://master:4040
可以看到spark WEBUI界面,说明spark集群环境搭建成功!