1.在相应的目录下分别解压scala和spark
具体参见: ubuntu单机下安装配置spark
2.在/etc/profile下面配置环境变量
包括jdk、scala和spark
友情提示:注意版本号,比如:Scala 2.12只支持JDK 1.8及以上
在ubuntu下,操作:
a.打开/etc/profile
b.将环境变量写到里面
export JAVA_HOME=/home/hadoop/hadoop/jdk1.8
export SCALA_HOME=/home/hadoop/hadoop/scala-2.12.0
export SPARK_HOME=/home/hadoop/hadoop/spark-2.0.2-bin-hadoop2.6
c.使 /etc/profile文件生效
. /etc/profile
3.修改spark配置文件,使之成为机群以及与hadoop交互
在spark目录下面的conf目录里面的配置文件
其中最关键的两个
a.将spark-env.sh.template copy一份spark-env.sh
打开并在里面修改为:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 #JDK环境变量
export HADOOP_CONF_DIR=/root/hadoop/hadoop/hadoop-2.6.0/etc/hadoop #hadoop配置文件所在路径
SPARK_MASTER_HOST=master #主结点为master
SPARK_MASTER_PORT=10001 #主结点的端口号,可以根据需要设置
SPARK_WORKER_CORES=1 #CPU有几个核
SPARK_WORKER_MEMORY=2G #内存多大
b.将slaves.template copy一份slaves.template
打开并在里面修改为:
master
slave1
slave2
指定机群有哪几个结点,这三个是与IP映射后的主机名
或直接写结点的IP
4.分别将配置成功的scala与spark同步到另外两个结点的机器
注意:要是相应的文件目录
rsync -avz /home/hadoop/hadoop/scala-2.12.0 slave1:/home/hadoop/hadoop/
rsync -avz /home/hadoop/hadoop/spark-2.0.2-bin-hadoop2.6 slave1:/home/hadoop/hadoop/
rsync -avz /home/hadoop/hadoop/scala-2.12.0 slave2:/home/hadoop/hadoop/
rsync -avz /home/hadoop/hadoop/spark-2.0.2-bin-hadoop2.6 slave2:/home/hadoop/hadoop/
5.分别启动hadoop 与 spark
都是在sbin目录下面执行start-all.sh
具体参见: ubuntu单机下安装配置spark
2.在/etc/profile下面配置环境变量
包括jdk、scala和spark
友情提示:注意版本号,比如:Scala 2.12只支持JDK 1.8及以上
在ubuntu下,操作:
a.打开/etc/profile
b.将环境变量写到里面
export JAVA_HOME=/home/hadoop/hadoop/jdk1.8
export SCALA_HOME=/home/hadoop/hadoop/scala-2.12.0
export SPARK_HOME=/home/hadoop/hadoop/spark-2.0.2-bin-hadoop2.6
c.使 /etc/profile文件生效
. /etc/profile
3.修改spark配置文件,使之成为机群以及与hadoop交互
在spark目录下面的conf目录里面的配置文件
其中最关键的两个
a.将spark-env.sh.template copy一份spark-env.sh
打开并在里面修改为:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 #JDK环境变量
export HADOOP_CONF_DIR=/root/hadoop/hadoop/hadoop-2.6.0/etc/hadoop #hadoop配置文件所在路径
SPARK_MASTER_HOST=master #主结点为master
SPARK_MASTER_PORT=10001 #主结点的端口号,可以根据需要设置
SPARK_WORKER_CORES=1 #CPU有几个核
SPARK_WORKER_MEMORY=2G #内存多大
b.将slaves.template copy一份slaves.template
打开并在里面修改为:
master
slave1
slave2
指定机群有哪几个结点,这三个是与IP映射后的主机名
或直接写结点的IP
4.分别将配置成功的scala与spark同步到另外两个结点的机器
注意:要是相应的文件目录
rsync -avz /home/hadoop/hadoop/scala-2.12.0 slave1:/home/hadoop/hadoop/
rsync -avz /home/hadoop/hadoop/spark-2.0.2-bin-hadoop2.6 slave1:/home/hadoop/hadoop/
rsync -avz /home/hadoop/hadoop/scala-2.12.0 slave2:/home/hadoop/hadoop/
rsync -avz /home/hadoop/hadoop/spark-2.0.2-bin-hadoop2.6 slave2:/home/hadoop/hadoop/
5.分别启动hadoop 与 spark
都是在sbin目录下面执行start-all.sh
启动成功界面如下: