大数据处理 | Spark集群搭建及基本使用

本文详述了Spark集群的搭建步骤,包括下载安装、配置环境变量、设置Master和Slave节点,并介绍了Spark的运行原理和运行模式,提供了简单的示例展示如何使用Spark处理数据。
摘要由CSDN通过智能技术生成

本文来详细介绍一下Spark集群的搭建及Spark的运行原理、运行模式。

—▼—

 

Spark集群环境搭建

如果已经理解了前文Hadoop集群环境的搭建,那么学习Spark集群环境的搭建会容易很多,因为Hadoop和Spark不仅安装包目录结构非常相似,在配置方面也十分接近。均是在master节点上进行所有配置,然后打包复制到每个slave节点,然后启动集群Spark即可,下面就来详细介绍一下Spark集群环境的搭建。

下载安装

进入Spark的下载目录,

https://spark.apache.org/downloads.html

可以看到Spark分多个版本,有基于Hadoop构建好的,有没基于Hadoop构建的,有基于Hadoop2.6之前版本构建的,也有基于Hadoop2.7以后版本构建的,由于前面讲解Hadoop集群环境搭建时采用的是Hadoop 3.2.1,因此,而且本文需要使用HDFS依赖Hadoop,因此需要下载Pre-built for Apache Hadoop 2.7 and later,

把spark-2.4.4-bin-hadoop2.7.tgz文件下载到home路径下,然后解压到指定目录,

 

$ tar -zxvf ~/spark-2.4.4-bin-hadoop2.7.tgz -C /usr/local/

然后进入目录并像Hadoop那样,修改Spark目录的拥有者,

 

$ cd /usr/local
$ sudo mv ./spark-2.4.4-bin-hadoop2.7 ./spark
$ sudo chowm -R user_name ./spark

配置环境变量

修改bashrc,配置环境变量,把Spark的bin和sbin路径加入到环境变量,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值