1.下载安装scala
scala下载地址
我用的是scala-2.11.8.tgz
然后解压
sudo tar -zvxf scala-2.11.8.tgz /usr/local
cd /usr/local
sudo mv scala-2.11.8 ./scala
sudo chown -R master ./scala
配置scala环境变量
sudo vim /etc/profile
添加配置
export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin
下载spark
spark下载地址(选择合适的spark版本,需要支持你安装hadoop的版本,我使用的是 spark-1.6.0-bin-hadoop2.6.tgz)
解压
tar –zvxf spark-1.6.0-bin-hadoop2.6.tgz –C /usr/local/spark/
配置spark环境变量
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
是环境变量生效
source /etc/profile
注:环境变量每个主机上都要配置
在master上修改spark的配置文件(都在/usr/local/spark/conf/路径下)
修改spark-env.sh配置文件:
由于没有spark-env.sh文件,需要执行下面命令,创建一个spark-env.sh文件
cp spark-env.sh.template spark-env.sh
添加配置
export SCALA_HOME=/usr/local/scala
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_JAR=/usr/local/spark/lib/spark-assembly-1.6.0-hadoop2.6.0.jar
修改slaves文件,将计算节点的主机名添加到该文件,一行一个,例如:
master
slave1
将scala,spark发送到slave1节点
scp –r scala slave1:/usr/local/
scp –r spark slave1:/usr/local/
启动spark集群
sbin/start-master.sh
sbin/start-slaves.sh