spark2.1.0完全分布式集群搭建-hadoop2.7.3

最新推荐文章于 2022-05-21 13:58:49 发布

sand_clock

最新推荐文章于 2022-05-21 13:58:49 发布

阅读量1.1k

点赞数

分类专栏： spark 文章标签： spark 分布式 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sand_clock/article/details/64907293

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

搭建spark集群：要求安装JDK，完全分布式HADOOP2.7集群。

环境：

VM搭建的三个虚拟机，均采用centos-6.8-64.iso

机器IP与名称对应关系如下：

192.168.152.192 master

192.168.152.193 slave1

192.168.152.194 slave2

JDK请自行安装。hadoop2.7集群安装可以参考我的文章搭建hadoop完全分布式集群

scala版本：scala-2.11.8.tgz

spark版本：spark-2.1.0-bin-hadoop2.7

1. scala环境安装

先在master机器上安装scala，再远程复制到slave1，slave2即可。

# [root@master] mkdir /usr/lib/scala

# [root@master] tar zxvf /home/master/package/scala-2.11.8.tgz -C /usr/lib/scala

# [root@master] vim /etc/profile

追加如下内容：

export SCALA_HOME=/usr/lib/scala/scala-2.11.8

export PATH=$PATH:$SCALA_HOME/bin

# [root@master] source /etc/profile

先分别在slave1和slave2上创建scala目录

# [root@slave1] mkdir /usr/lib/scala

# [root@slave2] mkdir /usr/lib/scala

远程复制解压好的文件夹到slave1和slave2上

# [root@master] scp -r /usr/lib/scala/scala-2.11.8 slave1:/usr/lib/scala

# [root@master] scp -r /usr/lib/scala/scala-2.11.8 slave2:/usr/lib/scala

复制出刚配好的scala环境变量语句

# [root@master] tail -2 >> /home/tmp

# [root@master] scp /home/tmp slave1:/home

# [root@master] scp /home/tmp slave2:/home

# [root@master] rm -rf /home/tmp

切换到slave1上：

# [root@slave1] cat /home/tmp >> /etc/profile

# [root@slave1] source /etc/profile

# [root@slave1] rm -rf /home/tmp

切换到slave2上：

# [root@slave2] cat /home/tmp >> /etc/profile

# [root@slave2] source /etc/profile

# [root@slave2] rm -rf /home/tmp

2. spark安装

先在master机器上安装spark，再远程复制到slave1，slave2即可。

# [root@master] mkdir /home/spark

# [root@master] tar zxvf /home/master/package/spark-2.1.0-bin-hadoop2.7 -C /home/spark

配置环境变量

# [root@master] vim /etc/profile

追加以下内容：

export SPARK_HOME=/home/spark/spark-2.1.0-bin-hadoop2.7

export PATH=$PATH:$SPARK_HOME/bin

# [root@master] source /etc/profile

解压完.tgz文件会出现spark-2.1.0-bin-hadoop2.7文件夹，进入该目录下的conf

# [root@master] cd spark-2.1.0-bin-hadoop2.7/conf

# [root@master] cp spark-env.sh.template spark-env.sh

# [root@master] vim spark-env.sh

配置内容如下：

export SCALA_HOME=/usr/lib/scala/scala-2.11.8

export JAVA_HOME=/usr/lib/java/jdk1.7.0_79

export SPARK_MASTER_IP=192.168.145.133

export SPARK_WORKER_MEMORY=1G #根据slave的具体情况而定，不要超过实际值

export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.7.3/etc/hadoop

export LD_LIBRARY_PATH=/home/hadoop/hadoop-2.7.3/lib/native

退出保存 :wq

# [root@master] cp slaves.template slaves

# [root@master] vim slaves

配置内容如下：

slave1

slave2

退出保存 :wq

spark配置文件修改完毕，接下来把spark-2.1.0-bin-hadoop2.7文件夹远程复制到slave1和slave2上

# [root@slave1] mkdir /home/spark

# [root@slave2] mkdir /home/spark

# [root@master] scp -r /home/spark/spark-2.1.0-bin-hadoop2.7 slave1:/home/spark

# [root@master] scp -r /home/spark/spark-2.1.0-bin-hadoop2.7 slave2:/home/spark

切换到slave1上：

# [root@slave1] vim /etc/profile

配置以下内容：

export SPARK_HOME=/home/spark/spark-2.1.0-bin-hadoop2.7

export PATH=$PATH:$SPARK_HOME/bin

退出保存 :wq

# [root@slave1] source /etc/profile

slave2上的spark环境变量配置同上

3. 验证spark集群安装是否成功

3.1 启动hadoop集群

# [root@master] cd /home/hadoop/hadoop-2.7.3/sbin/

# [root@master] ./start-all.sh

# [root@master] jps

如果master机器上出现以下类似内容则表示master启动成功

2916 NameNode

3254 ResourceManager

3103 SecondaryNameNode

3502 Jps

如果slave1或者slave2机器上出现以下类似内容则表示slave1或者slave2启动成功

# [root@slave1] jps

2760 NodeManager

2878 Jps

2653 DataNode

3.2 启动spark集群

# [root@master] cd /home/spark/spark-2.1.0-bin-hadoop2.7/sbin/

# [root@master] ./start-all.sh

# [root@master] jps

如果master机器新增Master则表示master启动成功

# [root@slave1] jps

如果slave1或者slave2机器新增Worker则表示slave启动成功

文章完毕

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
spark2.1.0完全分布式集群搭建-hadoop2.7.3

搭建spark集群，采用的版本为：spark-2.1.0-bin-hadoop2.7
复制链接

扫一扫

专栏目录

sand_clock CSDN认证博客专家 CSDN认证企业博客

码龄9年

89: 原创

7万+: 周排名

123万+: 总排名

49万+: 访问

: 等级

4027: 积分

65: 粉丝

114: 获赞

103: 评论

531: 收藏

私信

关注

热门文章

分类专栏

storm 1篇
gitlab 1篇
algorithm 4篇
spark 1篇
hadoop 2篇
java 39篇
docker
Redis 2篇
Storage System 6篇
Sponge
zookeeper 1篇
kafka 2篇
database 8篇
itext 14篇
ftp 2篇
shell 8篇
web 9篇
linux 1篇
scp 1篇
samba 1篇
poi 1篇
springmvc 1篇
regular 2篇
python 4篇
OSS 1篇

最新评论

Redis-AOF重写，AOF后台重写实现原理
亲爱的非洲野猪: 当Redis通过fork子进程来遍历当前数据库状态时，子进程会继承父进程（主Redis进程）的内存页。在fork之后，父子进程实际上共享相同的内存页。只有当任一进程需要修改内存时，操作系统才会复制对应的内存页，这个过程称为写时复制。当其中任一进程尝试修改这些共享的内存页时，操作系统会首先为尝试写入的进程复制一份新的内存页，然后再进行修改。这个过程确保了修改后的内存页只对进行修改的进程可见，而其他进程仍然只能访问原始的（未修改的）内存页。
java生成PDF的几种方法
davidzhou13831070: iText库从版本5开始，就改为使用AGPL（Affero General Public License）许可证发布，这意味着使用这些版本的iText（5.0.1及以上）在商业项目中可能需要购买商业许可，除非你的项目也采用AGPL许可或满足AGPL的公开源代码要求。
ITEXT-字体兼容Linux平台
LonG5674: 谢谢帮助!
Redis-AOF重写，AOF后台重写实现原理
真正的飞鱼: 虽然 Redis 将生成新 AOF 文件替换旧 AOF 文件的功能命名为“AOF 文件重写”，但实际上，AOF 文件重写并不需要对现有的 AOF 文件进行任何读取、分析或者写入操作，这个功能是通过读取服务器当前的数据库状态来实现的。 AOF重写功能的实现原理就是，首先从数据库中读取键现在的值，然后用一条命令去记录键值对，代替之前记录这个键值对的多条命令。来自《Redis设计与实现》
ITEXT 目录生成的第三种方法（同时带有书签功能）
the1yu: 为什么每个章节都要新起一页？可不可以不新起一页

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。