spark-1.2.0 集群环境搭建(sprak集群依赖hadoop至上,用的是分布式APACHE系统HDFS)
(此处搭建承接文档hadoop搭建,服务地址一样需要修改配置,下面附链接)
一、安装jdk(1.7)------查看hadoop环境配置文件里面的jdk配置(一样)
二、ssh免验证---------查看hadoop环境配置文件里面的ssh免验证(一样)
三、安装hadoop(这次安装2.6的)--------查看hadoop环境配置文件里面的hadoop安装()
以上三个安装链接 : http://blog.csdn.net/u011192458/article/details/76749308
四、scala2.11.4搭建
1、下载scala2.11.4版本、
2、解压安装scala2.11.4
命令:tar -xvf scala-2.11.4.tgz
3、编辑 vi ~/.bashrc 文件 增加SCALA_HOME环境变量配置,
export JAVA_HOME=/home/chao/jdk1.7.0_79
export HADOOP_HOME=/home/chao/hadoop-2.6.0
export HIVE_HOME=/home/chao/hive-1.2.1
export CLASSPATH=${JAVA_HOME}/lib
export SCALA_HOME=/home/chao/scala-2.11.4
export PATH=.:$HADOOP_HOME/bin:$HIVE_HOME/bin:${JAVA_HOME}/bin:$SCALA_HOME/bin:$PATH
立即生效 ~/.bashrc
source ~/.bashrc
4、验证scala
scala -version
Scala code runner version 2.11.4 -- Copyright 2002-2013, LAMP/EPFL
5、登陆scala
命令:scala
scala>
验证测试var str = "SB is" + "SB"
scala> var str = "SB is" + "SB"
str: String = SB isSB
验证完成--scala安装成功。
6、copy到其它节点机器(spark02)
scp -r scala-2.11.4/ chao@salve1:/home/chao/
scp -r scala-2.11.4/ chao@salve2:/home/chao/
验证其它节点--方法同上
7、下载spark
1、解压spark-1.2.0-bin-hadoop2.4
命令:tar zxvf spark-1.2.0-bin-hadoop2.4
mv spark-1.2.0-bin-hadoop2.4 /home/chao/spark-1.2.0
2、配置spark环境变量
vi ~/.bashrc
增加SPARK_HOME
export SPARK_HOME=/home/chao/spark-1.2.0
export PATH=${JAVA_HOME}/bin:${SCALA_HOME}/bin:${HADOOP_HOME}/bin:${SPARK_HOME}/bin:$PATH
配置完成后使用source命令使配置生效 source ~/.bashrc
3、进入spark-1.2.0/conf目录 ls
fairscheduler.xml.template slaves.template
log4j.properties.template spark-defaults.conf.template
metrics.properties.template spark-env.sh.template
4、修改slaves文件,增加两个slave节点spark01,spark02(所有的节点机器)
(如果没有slaves文件可以根据模板拷贝一个)
sudo gedit slaves
增加节点
spark01
spark02
5、修改spark-env.sh文件在最下面增加:
vi spark-env.sh
export JAVA_HOME=/home/chao/jdk1.7.0_79
export SCALA_HOME=/home/chao/scala-2.11.4
export SPARK_MASTER_IP=192.168.0.10
export SPARK_WORKER_MEMORY=2g
export HADOOP_CONF_DIR=/home/chao/hadoop-2.6.0
//SPARK_MASTER_IP是主节点的IP地址
//SPRAK_WORKER_MOMORY使用的时候最大内存
6、完成配置之后将spark目录copy到其它节点(完成copy一定要检查环境变量的配置)
命令:spark-1.2.0 chao@slave1:/home/chao
命令:spark-1.2.0 chao@slave2:/home/chao
7、进入spark-1.2.0/sbin启动spark(启动spark一定要先启动hdfs)
命令:./start-all.sh
查看:jps
3353 Master
2968 NodeManager
2867 ResourceManager
2727 SecondaryNameNode
2574 DataNode
3498 Worker
2449 NameNode
3908 Jps
启动spark-shell界面
进入bin目录下
./spark-shell
spark集群环境搭建成功了
3353 Master
3641 SparkSubmit
2968 NodeManager
2867 ResourceManager
2727 SecondaryNameNode
3818 Jps
2574 DataNode
3498 Worker
2449 NameNode
(此处搭建承接文档hadoop搭建,服务地址一样需要修改配置,下面附链接)
一、安装jdk(1.7)------查看hadoop环境配置文件里面的jdk配置(一样)
二、ssh免验证---------查看hadoop环境配置文件里面的ssh免验证(一样)
三、安装hadoop(这次安装2.6的)--------查看hadoop环境配置文件里面的hadoop安装()
以上三个安装链接 : http://blog.csdn.net/u011192458/article/details/76749308
四、scala2.11.4搭建
1、下载scala2.11.4版本、
2、解压安装scala2.11.4
命令:tar -xvf scala-2.11.4.tgz
3、编辑 vi ~/.bashrc 文件 增加SCALA_HOME环境变量配置,
export JAVA_HOME=/home/chao/jdk1.7.0_79
export HADOOP_HOME=/home/chao/hadoop-2.6.0
export HIVE_HOME=/home/chao/hive-1.2.1
export CLASSPATH=${JAVA_HOME}/lib
export SCALA_HOME=/home/chao/scala-2.11.4
export PATH=.:$HADOOP_HOME/bin:$HIVE_HOME/bin:${JAVA_HOME}/bin:$SCALA_HOME/bin:$PATH
立即生效 ~/.bashrc
source ~/.bashrc
4、验证scala
scala -version
Scala code runner version 2.11.4 -- Copyright 2002-2013, LAMP/EPFL
5、登陆scala
命令:scala
scala>
验证测试var str = "SB is" + "SB"
scala> var str = "SB is" + "SB"
str: String = SB isSB
验证完成--scala安装成功。
6、copy到其它节点机器(spark02)
scp -r scala-2.11.4/ chao@salve1:/home/chao/
scp -r scala-2.11.4/ chao@salve2:/home/chao/
验证其它节点--方法同上
7、下载spark
1、解压spark-1.2.0-bin-hadoop2.4
命令:tar zxvf spark-1.2.0-bin-hadoop2.4
mv spark-1.2.0-bin-hadoop2.4 /home/chao/spark-1.2.0
2、配置spark环境变量
vi ~/.bashrc
增加SPARK_HOME
export SPARK_HOME=/home/chao/spark-1.2.0
export PATH=${JAVA_HOME}/bin:${SCALA_HOME}/bin:${HADOOP_HOME}/bin:${SPARK_HOME}/bin:$PATH
配置完成后使用source命令使配置生效 source ~/.bashrc
3、进入spark-1.2.0/conf目录 ls
fairscheduler.xml.template slaves.template
log4j.properties.template spark-defaults.conf.template
metrics.properties.template spark-env.sh.template
4、修改slaves文件,增加两个slave节点spark01,spark02(所有的节点机器)
(如果没有slaves文件可以根据模板拷贝一个)
sudo gedit slaves
增加节点
spark01
spark02
5、修改spark-env.sh文件在最下面增加:
vi spark-env.sh
export JAVA_HOME=/home/chao/jdk1.7.0_79
export SCALA_HOME=/home/chao/scala-2.11.4
export SPARK_MASTER_IP=192.168.0.10
export SPARK_WORKER_MEMORY=2g
export HADOOP_CONF_DIR=/home/chao/hadoop-2.6.0
//SPARK_MASTER_IP是主节点的IP地址
//SPRAK_WORKER_MOMORY使用的时候最大内存
6、完成配置之后将spark目录copy到其它节点(完成copy一定要检查环境变量的配置)
命令:spark-1.2.0 chao@slave1:/home/chao
命令:spark-1.2.0 chao@slave2:/home/chao
7、进入spark-1.2.0/sbin启动spark(启动spark一定要先启动hdfs)
命令:./start-all.sh
查看:jps
3353 Master
2968 NodeManager
2867 ResourceManager
2727 SecondaryNameNode
2574 DataNode
3498 Worker
2449 NameNode
3908 Jps
启动spark-shell界面
进入bin目录下
./spark-shell
spark集群环境搭建成功了
3353 Master
3641 SparkSubmit
2968 NodeManager
2867 ResourceManager
2727 SecondaryNameNode
3818 Jps
2574 DataNode
3498 Worker
2449 NameNode