大数据实时处理 2.2 搭建Spark开发环境

最新推荐文章于 2024-03-04 17:17:52 发布

saddwe

最新推荐文章于 2024-03-04 17:17:52 发布

阅读量75

点赞数

文章标签：大数据 spark hadoop

本文链接：https://blog.csdn.net/saddwe/article/details/131120811

版权

一、Spark开发环境准备工作
由于Spark仅仅是一种计算框架，不负责数据的存储和管理，因此，通常都会将Spark和Hadoop进行统一部署，由Hadoop中的HDFS、HBase等组件负责数据的存储管理，Spark负责数据计算。

安装Spark集群前，需要安装Hadoop环境

二、了解Spark的部署模式
（一）Standalone模式
Standalone模式被称为集群单机模式。该模式下，Spark集群架构为主从模式，即一台Master节点与多台Slave节点，Slave节点启动的进程名称为Worker，存在单点故障的问题。
（二）Mesos模式
Mesos模式被称为Spark on Mesos模式。Mesos是一款资源调度管理系统，为Spark提供服务，由于Spark与Mesos存在密切的关系，因此在设计Spark框架时充分考虑到对Mesos的集成。
（三）Yarn模式
Yarn模式被称为Spark on Yarn模式，即把Spark作为一个客户端，将作业提交给Yarn服务。由于在生产环境中，很多时候都要与Hadoop使用同一个集群，因此采用Yarn来管理资源调度，可以提高资源利用率。
三、搭建Spark单机版环境
（一）前提是安装配置好了JDK
查看JDK版本

（二）下载、安装与配置Spark

1、下载Spark安装包

官网下载页面：https://spark.apache.org/downloads.html https://spark.apache.org/downloads.html

2、将Spark安装包上传到虚拟机

将Spark安装包上传到ied虚拟机/opt目录

3.将Spark安装包解压到指定目录

执行命令：tar -zxvf spark-3.3.2-bin-hadoop3.tgz -C /usr/local

4、配置Spark环境变量

执行vim /etc/profile

存盘退出，执行命令：source /etc/profile，让环境配置生效

查看是否生效，执行命令： $SPARK_HOME

（三）使用Spark单机版环境

1、使用SparkPi来计算Pi的值

执行命令：run-example SparkPi 2 （其中参数2是指两个并行度）

查看计算结果：Pi is roughly 3.1412357061785308

2、使用Scala版本Spark-Shell
Spark-Shell是一个强大的交互式数据分析工具，初学者可以很好的使用它来学习相关API，用户可以在命令行下使用Scala编写Spark程序，并且每当输入一条语句，Spark-Shell就会立即执行语句并返回结果，这就是我们所说的REPL（Read-Eval-Print Loop，交互式解释器），Spark-Shell支持Scala和Python。
命令格式：spark-shell --master <master-url>
--master表示指定当前连接的Master节点
<master-url>用于指定Spark的运行模式