大数据处理 | Spark集群搭建及基本使用

最新推荐文章于 2022-07-12 23:50:00 发布

BAO7988

最新推荐文章于 2022-07-12 23:50:00 发布

阅读量590

点赞数 1

分类专栏：大数据文章标签：大数据大数据开发大数据学习大数据入门 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BAO7988/article/details/103695834

版权

本文详述了Spark集群的搭建步骤，包括下载安装、配置环境变量、设置Master和Slave节点，并介绍了Spark的运行原理和运行模式，提供了简单的示例展示如何使用Spark处理数据。

摘要由CSDN通过智能技术生成

本文来详细介绍一下Spark集群的搭建及Spark的运行原理、运行模式。

—▼—

Spark集群环境搭建

如果已经理解了前文Hadoop集群环境的搭建，那么学习Spark集群环境的搭建会容易很多，因为Hadoop和Spark不仅安装包目录结构非常相似，在配置方面也十分接近。均是在master节点上进行所有配置，然后打包复制到每个slave节点，然后启动集群Spark即可，下面就来详细介绍一下Spark集群环境的搭建。

下载安装

进入Spark的下载目录，

https://spark.apache.org/downloads.html

可以看到Spark分多个版本，有基于Hadoop构建好的，有没基于Hadoop构建的，有基于Hadoop2.6之前版本构建的，也有基于Hadoop2.7以后版本构建的，由于前面讲解Hadoop集群环境搭建时采用的是Hadoop 3.2.1，因此，而且本文需要使用HDFS依赖Hadoop，因此需要下载Pre-built for Apache Hadoop 2.7 and later,

把spark-2.4.4-bin-hadoop2.7.tgz文件下载到home路径下，然后解压到指定目录，

$ tar -zxvf ~/spark-2.4.4-bin-hadoop2.7.tgz -C /usr/local/

然后进入目录并像Hadoop那样，修改Spark目录的拥有者，

$ cd /usr/local
$ sudo mv ./spark-2.4.4-bin-hadoop2.7 ./spark
$ sudo chowm -R user_name ./spark

配置环境变量

修改bashrc，配置环境变量，把Spark的bin和sbin路径加入到环境变量，

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。