CentOS7搭建spark2.1.0集群搭建

最新推荐文章于 2024-04-03 14:32:47 发布

韦晓阳

最新推荐文章于 2024-04-03 14:32:47 发布

阅读量1.4k

点赞数

分类专栏：大数据运维 Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_21153619/article/details/81866422

版权

大数据同时被 3 个专栏收录

41 篇文章 5 订阅

订阅专栏

28 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

CentOS7搭建spark2.1.0完全分布式

这里搭建的是3个节点的完全分布式，即1个master，2个worker，分别如下：

CentOS-master master 192.168.11.128

CentOS-node1 worker 192.168.11.131

CentOS-node2 worker 192.168..11.132

1.三个虚拟机的创建步骤这里就不再详细讲解，具体参照hadoop2.7.3完全分布式的搭建，这里直接用那3台虚拟机，包括主机名，hosts文件，ssh配置，这里就不再重复做，首先打开master主机

2.输入 mkdir /usr/local/spark建立spark目录

3.将下载好的tar包放到该目录

4.进入该目录，输入解压命令，解压tar包

5.spark可以用scala进行计算，这里先配置scala，输入 mkdir /usr/local/spark/scala 建立scala目录

6.将下载好的tar包放到该目录

7.进入该目录，输入解压命令，解压tar包

8.输入 vi /etc/profile配置环境变量

9.这里加入以下内容，顺便把spark的环境变量一起配好，保存并退出

SPARK_HOME=/usr/local/spark/spark-2.1.0-bin-hadoop2.7

SCALA_HOME=/usr/local/spark/scala/scala-2.12.0/

PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HIVE_HOME/bin:$HBASE_HOME/bin:$SQOOP_HOME/bin:$SPARK_HOME/bin:$SCALA_HOME/bin

10.输入 . /etc/profile 使配置文件生效

11.任意位置输入 scala ，开始使用scala

12.输入 3*3.5 运行成功，说明scala配置完成

13.输入 :q 退出scala

14.进入spark的conf目录，输入 cp spark-env.sh.template spark-env.sh 将文件复制为.sh文件

15.输入 vi spark-env.sh 修改配置文件

16.在文件中加入以下内容，保存并退出，注意标红位置为master的主机名，根据自己实际情况修改

JAVA_HOME=/usr/local/java/jdk1.8.0_102/

SCALA_HOME=/usr/local/spark/scala/scala-2.12.0/

HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3/

HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.7.3/etc/hadoop/

SPARK_MASTER_IP=master

SPARK_WORKER_MEMORY=512M

export JAVA_HOME SCALA_HOME HADOOP_HOME HADOOP_CONF_DIR SPARK_MASTER_IP SPARK_WORKER_MEMORY

17.输入 cp slaves.template slaves 复制并重命名slaves.template文件

18.输入 vi slaves ，修改配置文件

19.将localhost注释掉，加入node1和node2，保存并退出，分别是2个worker节点的主机名

20.打开node1和node2主机

21.在master机器上，任意目录输入 scp -r /usr/local/spark/ root@node1:/usr/local/ 其中，scp是远程安全复制，-r是将目录及目录下所有文件都复制，/usr/local/spark/是复制spark文件夹，root是当前master的用户名，@node1是将要复制到的主机名，/usr/local/意思是将master上复制的文件放到此目录

22.在master机器上，任意目录输入 scp -r /usr/local/spark/ root@node2:/usr/local/ ，将文件复制到node2一份，这里注意，三台机器的spark文件夹必须放在同一个位置

23.分别修改node1和node2的环境变量，和master的配置一样，这里就不要复制了，环境变量的文件里东西很多，以防出错，设置好环境变量后，依次执行生效，这里就不再截图，具体参照第8~10步

24.在master机器上，进入hadoop的sbin目录，输入 ./start-all.sh 启动hadoop集群

25.三个主机分别输入 jps 查看java进程

26.在master机器上，进入spark的sbin目录，输入 ./start-all.sh 启动spark集群

27.此时可以通过浏览器访问master主机的8080端口，查看spark的运行情况，可以看到Workers中有两个节点

28.通过浏览器访问node1和node2主机的8081端口，可以查看spark的Worker节点状态

29.在master主机上，任意目录输入 hadoop fs -ls /input 查看之前hadoop做wordcount上传的文件LICENSE.txt

30.在master主机上，任意目录输入 run-example JavaWordCount /input/LICENSE.txt

31.在控制台上可以看到文件经过wordCount的运算结果，ps：笔者4G电脑竟然在集群中做成了wordCount，可以看出这spark运行效率比hadoop高多了

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

韦晓阳 CSDN认证博客专家 CSDN认证企业博客

码龄10年

60: 原创

4万+: 周排名

2万+: 总排名

43万+: 访问

: 等级

2696: 积分

172: 粉丝

189: 获赞

49: 评论

912: 收藏

私信

关注

热门文章

分类专栏

最新评论

2.WeBASE一键部署
L3238107011: 我去，作者太好了，解决了我那个关键的数据库问题，其他的很多文章都只是讲需要改数据库，只有作者告诉我怎么改，类目了，呜呜呜
2.WeBASE一键部署
背上行囊去旅行: 引用「wget https://osp-1257653870.cos.ap-guangzhou.myqcl」 fisco@blockchain-fisco:~/桌面$ wget https://osp-1257653870.cos.ap-guangzhou.myqcloud.com/WeBASE/releases/download/v1.5.5/webase-deploy.zip --2024-06-30 13:21:17-- https://osp-1257653870.cos.ap-guangzhou.myqcloud.com/WeBASE/releases/download/v1.5.5/webase-deploy.zip 正在解析主机 osp-1257653870.cos.ap-guangzhou.myqcloud.com (osp-1257653870.cos.ap-guangzhou.myqcloud.com)... 失败：域名解析出现暂时性错误。 wget: 无法解析主机地址 ‘osp-1257653870.cos.ap-guangzhou.myqcloud.com’ fisco@blockchain-fisco:~/桌面$
Linux下mono安装----源码编译安装和yum安装
Richard cheng: 非常有用，按照教程一步一步直接装好了，感谢
Zookeeper的CancelledKeyException异常问题
「已注销」: 博主，你好，现在有办法解决了吗
CentOS7下Oracle安装
江南弄: 我安装的时候出现 komd 预测与实际版本不一样怎么弄啊？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。