大数据处理学习笔记2.2

最新推荐文章于 2024-07-07 12:38:54 发布

MISS0-0

最新推荐文章于 2024-07-07 12:38:54 发布

阅读量69

点赞数

文章标签：学习笔记 hadoop

本文链接：https://blog.csdn.net/m0_74001992/article/details/131124617

版权

一、Spark开发环境准备工作
由于Spark仅仅是一种计算框架，不负责数据的存储和管理，因此，通常都会将Spark和Hadoop进行统一部署，由Hadoop中的HDFS、HBase等组件负责数据的存储管理，Spark负责数据计算。
安装Spark集群前，需要安装Hadoop环境
二、了解Spark的部署模式
（一）Standalone模式
Standalone模式被称为集群单机模式。该模式下，Spark集群架构为主从模式，即一台Master节点与多台Slave节点，Slave节点启动的进程名称为Worker，存在单点故障的问题。
（二）Mesos模式
Mesos模式被称为Spark on Mesos模式。Mesos是一款资源调度管理系统，为Spark提供服务，由于Spark与Mesos存在密切的关系，因此在设计Spark框架时充分考虑到对Mesos的集成。
（三）Yarn模式
Yarn模式被称为Spark on Yarn模式，即把Spark作为一个客户端，将作业提交给Yarn服务。由于在生产环境中，很多时候都要与Hadoop使用同一个集群，因此采用Yarn来管理资源调度，可以提高资源利用率。
三、搭建Spark单机版环境
（一）前提是安装配置好了JDK
查看JDK版本

（二）下载、安装与配置Spark

1、下载Spark安装包

官网下载页面：Downloads | Apache Spark

下载链接：Apache Downloads

下载到本地

2、将Spark安装包上传到虚拟机

将Spark安装包上传到ied虚拟机/opt目录

3、将Spark安装包解压到指定目录

执行命令：tar -zxvf spark-3.3.2-bin-hadoop3.tgz -C /usr/local
查看解压之后的spark目录
（三）使用Spark单机版环境

 1、使用SparkPi来计算Pi的值
执行命令：run-example SparkPi 2 （其中参数2是指两个并行度）
2、使用Scala版本Spark-Shell
Spark-Shell是一个强大的交互式数据分析工具，初学者可以很好的使用它来学习相关API，用户可以在命令行下使用Scala编写Spark程序，并且每当输入一条语句，Spark-Shell就会立即执行语句并返回结果，这就是我们所说的REPL（Read-Eval-Print Loop，交互式解释器），Spark-Shell支持Scala和Python。
命令格式：spark-shell --master <master-url>
--master表示指定当前连接的Master节点
<master-url>用于指定Spark的运行模式
执行spark-shell命令，相当于执行spark-shell --master local[*]命令，启动Scala版的Spark-Shell
3、使用Python版本Spark-Shell
执行pyspark命令启动Python版的Spark-Shell

4、初识弹性分布式数据集RDD
Spark 中的RDD (Resilient Distributed Dataset) 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。RDD 可以包含Python、Java、Scala 中任意类型的对象，甚至可以包含用户自定义的对象。用户可以使用两种方法创建RDD：读取一个外部数据集，或在驱动器程序里分发驱动器程序中的对象集合（比如list 和set）。
演示利用集合创建RDD

四、搭建Spark Standalone集群
（一）Spark Standalone架构
Spark Standalone模式为经典的Master/Slave（主/从）架构，资源调度是Spark自己实现的。在Standalone模式中，根据应用程序提交的方式不同，Driver（主控进程）在集群中的位置也有所不同。应用程序的提交方式主要有两种：client和cluster，默认是client。可以在向Spark集群提交应用程序时使用--deploy-mode参数指定提交方式。
（二）Spark集群拓扑
1、集群拓扑
一个主节点，两个从节点
（三）前提条件：安装配置了分布式Hadoop环境
启动hadoop集群

4、编辑spark环境配置文件
进入spark配置目录后，执行命令：cp spark-env.sh.template spark-env.sh与vim spark-env.sh

（五）在slave1虚拟机上安装配置Spark
1、把master虚拟机上安装的spark分发给slave1虚拟机
执行命令：scp -r $SPARK_HOME root@slave1:$SPARK_HOME

分发到slave2

（七）启动Spark Standalone集群
Spark Standalone集群使用Spark自带的资源调度框架，但一般我们把数据保存在HDFS上，用HDFS做数据持久化，所以Hadoop还是需要配置，但是可以只配置HDFS相关的，而Hadoop YARN不需要配置。启动Spark Standalone集群，不需要启动YARN服务，因为Spark会使用自带的资源调度框架。

1、启动hadoop的dfs服务
在master虚拟机上执行命令：start-dfs.sh

2、启动Spark集群
执行命令：start-all.sh

查看start-all.sh的源码启动Master与Worker的命令

可以看到，当执行start-all.sh命令时，会分别执行start-master.sh命令启动Master，执行start-slaves.sh命令启动Worker。
注意，若spark-evn.sh中配置了SPARK_MASTER_HOST属性，则必须在该属性指定的主机上启动Spark集群，否则会启动不成功；若没有配置SPARK_MASTER_HOST属性，则可以在任意节点上启动Spark集群，当前执行启动命令的节点即为Master节点。
启动完毕后，分别在各节点执行jps命令，查看启动的进程。若在master节点存在Master进程，slave1节点存在Worker进程，slave2节点存在Worker进程，则说明集群启动成功。
查看master节点进程

（八）访问Spark的WebUI

在浏览器里访问http://master:8080

（九）启动Scala版Spark Shell

执行命令：spark-shell --master spark://master:7077 （注意--master，两个-不能少）

在/opt目录里执行命令：vim test.txt

在HDFS上创建park目录，将test.txt上传到HDFS的/park目录

读取HDFS上的文件，创建RDD，执行命令：val rdd = sc.textFile("hdfs://master:9000/park/test.txt")（说明：val rdd = sc.textFile("/park/test.txt")读取的依然是HDFS上的文件，绝对不是本地文件）
收集rdd的数据，执行命令：rdd.collect
进行词频统计，按单词个数降序排列，执行命令：val wordcount = rdd.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).sortBy(_._2, false)与`wordcount.collect.foreach(println)

MISS0-0

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
大数据处理学习笔记2.2

一、Spark开发环境准备工作由于Spark仅仅是一种计算框架，不负责数据的存储和管理，因此，通常都会将Spark和Hadoop进行统一部署，由Hadoop中的HDFS、HBase等组件负责数据的存储管理，Spark负责数据计算。安装Spark集群前，需要安装Hadoop环境二、了解Spark的部署模式（一）Standalone模式Standalone模式被称为集群单机模式。
复制链接

扫一扫