CentOS7搭建spark2.1.0集群搭建

28 篇文章 0 订阅
1 篇文章 0 订阅

CentOS7搭建spark2.1.0完全分布式

这里搭建的是3个节点的完全分布式,即1个master,2个worker,分别如下:

CentOS-master   master   192.168.11.128

CentOS-node1   worker    192.168.11.131

CentOS-node2   worker    192.168..11.132

 

1.三个虚拟机的创建步骤这里就不再详细讲解,具体参照hadoop2.7.3完全分布式的搭建,这里直接用那3台虚拟机,包括主机名,hosts文件,ssh配置,这里就不再重复做,首先打开master主机

2.输入 mkdir /usr/local/spark建立spark目录

3.将下载好的tar包放到该目录

4.进入该目录,输入解压命令,解压tar包

5.spark可以用scala进行计算,这里先配置scala,输入 mkdir /usr/local/spark/scala 建立scala目录

6.将下载好的tar包放到该目录

7.进入该目录,输入解压命令,解压tar包

8.输入 vi /etc/profile配置环境变量

9.这里加入以下内容,顺便把spark的环境变量一起配好,保存并退出

SPARK_HOME=/usr/local/spark/spark-2.1.0-bin-hadoop2.7

SCALA_HOME=/usr/local/spark/scala/scala-2.12.0/

 

PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HIVE_HOME/bin:$HBASE_HOME/bin:$SQOOP_HOME/bin:$SPARK_HOME/bin:$SCALA_HOME/bin

10.输入 . /etc/profile 使配置文件生效

11.任意位置输入 scala ,开始使用scala

12.输入 3*3.5 运行成功,说明scala配置完成

13.输入 :q 退出scala

14.进入spark的conf目录,输入 cp spark-env.sh.template spark-env.sh 将文件复制为.sh文件

15.输入 vi spark-env.sh 修改配置文件

16.在文件中加入以下内容,保存并退出,注意标红位置为master的主机名,根据自己实际情况修改

JAVA_HOME=/usr/local/java/jdk1.8.0_102/

SCALA_HOME=/usr/local/spark/scala/scala-2.12.0/

HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3/

HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.7.3/etc/hadoop/

SPARK_MASTER_IP=master

SPARK_WORKER_MEMORY=512M

export JAVA_HOME SCALA_HOME HADOOP_HOME HADOOP_CONF_DIR SPARK_MASTER_IP SPARK_WORKER_MEMORY

17.输入 cp slaves.template slaves 复制并重命名slaves.template文件

18.输入 vi slaves ,修改配置文件

19.将localhost注释掉,加入node1和node2,保存并退出,分别是2个worker节点的主机名

20.打开node1和node2主机

21.在master机器上,任意目录输入 scp -r /usr/local/spark/ root@node1:/usr/local/ 其中,scp是远程安全复制,-r是将目录及目录下所有文件都复制,/usr/local/spark/是复制spark文件夹,root是当前master的用户名,@node1是将要复制到的主机名,/usr/local/意思是将master上复制的文件放到此目录

22.在master机器上,任意目录输入 scp -r /usr/local/spark/ root@node2:/usr/local/ ,将文件复制到node2一份,这里注意,三台机器的spark文件夹必须放在同一个位置

23.分别修改node1和node2的环境变量,和master的配置一样,这里就不要复制了,环境变量的文件里东西很多,以防出错,设置好环境变量后,依次执行生效,这里就不再截图,具体参照第8~10步

24.在master机器上,进入hadoop的sbin目录,输入 ./start-all.sh 启动hadoop集群

25.三个主机分别输入 jps 查看java进程

26.在master机器上,进入spark的sbin目录,输入 ./start-all.sh 启动spark集群

27.此时可以通过浏览器访问master主机的8080端口,查看spark的运行情况,可以看到Workers中有两个节点

28.通过浏览器访问node1和node2主机的8081端口,可以查看spark的Worker节点状态

29.在master主机上,任意目录输入 hadoop fs -ls /input 查看之前hadoop做wordcount上传的文件LICENSE.txt

30.在master主机上,任意目录输入 run-example JavaWordCount /input/LICENSE.txt

31.在控制台上可以看到文件经过wordCount的运算结果,ps:笔者4G电脑竟然在集群中做成了wordCount,可以看出这spark运行效率比hadoop高多了

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值