Spark分布式搭建
利用spark(2.1.1)和hadoop(2.8.0)最新版
一、下载spark
Spark地址:版本
https://d3kbcqa49mib13.cloudfront.net/spark-2.1.1-bin-hadoop2.7.tgz
二、下载scala
此处scala版本要注意scala版本,spark有版本限制
这边可以看到用了scala2.11的大版本,这边小版本随意,就下载2.11.11版本的scala
下载地址:https://downloads.lightbend.com/scala/2.11.11/scala-2.11.11.tgz
三、下载hadoop(因为大数据生态圈离不开hdfs)
这边我们下载的spark依赖hadoop 2.7+
下载地址:http://apache.fayea.com/hadoop/common/hadoop-2.8.0/hadoop-2.8.0.tar.gz
四、下载jdk
Spark2.11.11以来jdk+
下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
五、解压各个项目,配置环境变量
vim /etc/profile
SPARK_HOME=/home/XXXX/software/spark-2.1.1-bin-hadoop2.7
SCALA_HOME=/usr/scala/scala-2.11.11
JAVA_HOME=/usr/java/jdk1.8.0_131
PATH=$PATH:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:$JAVA_HOME/bin:$SCALA_HOME/bin:$HADOOP_HOME/bin:$PARK_HOME/bin:$SPARK/sbin
在文件开头输入
由于此配置文件重启生效,为了不重启,我们可以输入如下命令:
source /etc/profile
六、配置spark
进入spark路径
cd /home/XXXX /software/spark-2.1.1-bin-hadoop2.7/conf
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
增加如下配置
·
export SPARK_MASTER_IP=192.168.126.128
cp spark-defaults.conf.template spark-defaults.conf
增加如下配置:
spark.master.ip 192.168.126.128#本机ip
spark.master spark://192.168.126.128:7077
spark.driver.bindAddress 192.168.126.128
spark.driver.host 192.168.126.128
cp slaves.template slaves
vim slaves
增加如下配置
192.168.126.128 #设置本地ip,即为伪分布式
五、配置ssh免登录
ssh-keygen -t rsa
回车
cat id_rsa.pub >> .ssh/authorized_keys
chmod 700 .ssh/
chmod 600 .ssh/authorized_keys
这样就能面密码登陆了
六、启动spark
cd /home/XXXX /software/spark-2.1.1-bin-hadoop2.7/sbin
./start-all.sh#启动spark
七、访问http://192.168.126.128:8080/