Spark-3.0.0 重点归纳

水花一直飞

已于 2022-06-23 16:08:08 修改

阅读量1.3k

点赞数 1

分类专栏： spark 大数据文章标签： spark 大数据 hadoop

于 2022-06-23 16:07:25 首次发布

本文链接：https://blog.csdn.net/m0_67991849/article/details/125158592

版权

本文深入探讨Spark-3.0.0的运行模式，包括Local、Standalone、Yarn和Mesos。详细介绍了各模式的部署、配置、优缺点以及运行流程，特别强调了在Yarn模式下的配置和历史服务设置，为实际生产环境提供了指导。

摘要由CSDN通过智能技术生成

第1章 Spark概述

1.1 什么是Spark

回顾：Hadoop主要解决，海量数据的存储和海量数据的分析计算。（基于磁盘，shuffle和reduce都要落盘，走MR多了磁盘落盘多，影响性能）
Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

1.2 Hadoop与Spark历史

在这里插入图片描述

HDFS -> NM单点故障
MR -> 集群
JobTracker：负责资源管理和分配、负责任务的调度
TaskTracker：资源节点、任务执行节点

在这里插入图片描述
区别：

MR是基于磁盘，spark是基于内存
MR的task是进程（处理小文件JVM重用），spark的task是线程（Executor线程里启动的一个一个进程）
MR的task在container内执行，Executor直接在Worker内执行

Hadoop的Yarn框架比Spark框架诞生的晚，所以Spark自己也设计了一套资源调度框架。

1.3 Hadoop与Spark框架对比

在这里插入图片描述

一次性数据计算
框架在处理数据的时候，会从存储设备中读取数据，进行逻辑操作，然后将处理的结果重新存储到介质中
在这里插入图片描述

以上就是一次性数据计算，但这种数据的一次性计算在处理复杂逻辑的时候性能是非常低的，是因为hadoop中mapreduce的计算引擎中的计算模型比较简单，它里面只有map和reduce。这样对于上层应用来讲，就不得不想方设法去拆分算法，甚至于不得不在上层应用实现多个job的串联（导致reducer输出落盘的file要作为下一个job的数据源），这种感觉就像迭代式计算，上一次的计算结果要给下一次使用，它们之间作业的关联就靠的是磁盘交互，会非常影响性能，MR初期设计并不是为了满足循环迭代式数据的处理，因此在一些并行运行的数据处理场景当中比方说机器学习图形挖掘交互式数据挖掘这些计算中效率是非常低的
反观spark它里面提供了更加丰富的数据处理模型，而且它可以基于内存来做数据集的多次迭代，所以它就会更好的支持数据挖掘算法和图形计算。那么我们先不考虑他的一个业务复杂度的问题，我们只考虑他数据处理的过程，会发现spark它把作业的计算结果放到了内存当中，为下一次计算提供了更加便利的处理的方式，那么这种方式效率就非常的高，这里我们选择spark而非hadoop中的MR的原因就是因为速度，在内存计算策略和先进的调度机制的帮助下spark可以更加快速的处理相同的数据集，会遇到的问题就是spark如果部署在共享的集群当中，它可能会遇到资源不足的问题，它所占用的资源会更大一些，而且他会同时对其他任务产生影响，所以从本质上来看spark并不适合和hadoop堆栈的一些其他组件一起共同使用。
在绝大多数的数据计算场景当中，spark确实比hadoop更加有优势，但是spark是基于内存的，所以在实际的生产环境中由于内存的限制可能会由于内存资源的不足导致job执行失败，这个时候其实MR是更好的选择，所以不能说spark速度快就能代替MR，要根据实际的应用场景来进行选择

1.4 Spark内置模块

在这里插入图片描述
Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。
Spark SQL：是Spark用来操作结构化数据的程序包。通过Spark SQL，我们可以使用 SQL或者Apache Hive版本的HQL来查询数据。Spark SQL支持多种数据源，比如Hive表、Parquet以及JSON等。
Spark Streaming：是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API，并且与Spark Core中的 RDD API高度对应。
Spark MLlib：提供常见的机器学习功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。
Spark GraphX：主要用于图形并行计算和图挖掘系统的组件。
集群管理器：Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器（Cluster Manager）上运行，包括Hadoop YARN、Apache Mesos，以及Spark自带的一个简易调度器，叫作独立调度器。
Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务；阿里利用GraphX构建了大规模的图计算和图挖掘系统，实现了很多生产系统的推荐算法；腾讯Spark集群达到8000台的规模，是当前已知的世界上最大的Spark集群。

1.5 Spark特点

在这里插入图片描述

第2章 Spark运行模式

在这里插入图片描述

部署Spark集群大体上分为两种模式：单机模式与集群模式
大多数分布式框架都支持单机模式，方便开发者调试框架的运行环境。但是在生产环境中，并不会使用单机模式。因此，后续直接按照集群模式部署Spark集群。
下面详细列举了Spark目前支持的部署模式。
（1）Local模式：在本地部署单个Spark服务
（2）Standalone模式：Spark自带的任务调度模式。（国内常用）
（3）YARN模式：Spark使用Hadoop的YARN组件进行资源与任务调度。（国内最常用）
（4）Mesos模式：Spark使用Mesos平台进行资源与任务的调度。（国内很少用）

2.1 Spark安装地址

1）官网地址：http://spark.apache.org/
2）文档查看地址：https://spark.apache.org/docs/3.1.3/
3）下载地址：https://spark.apache.org/downloads.html
https://archive.apache.org/dist/spark/

2.2 Local模式

Local模式就是运行在一台计算机上的模式，通常就是用于在本机上练手和测试。

2.2.1 安装使用

1）上传并解压Spark安装包

[chenyunde@hadoop102 sorfware]$ tar -zxvf spark-3.1.3-bin-hadoop3.2.tgz -C /opt/module/

[chenyunde@hadoop102 module]$ mv spark-3.1.3-bin-hadoop3.2 spark-local

2）官方求PI案例

[chenyunde@hadoop102 spark-local]$ bin/spark-submit
–class org.apache.spark.examples.SparkPi
–master local[2] ./examples/jars/spark-examples_2.12-3.0.0.jar 10

可以查看spark-submit所有参数：

[chenyunde@hadoop102 spark-local]$ bin/spark-submit

–class：表示要执行程序的主类；
–master local[2]

（1）local: 没有指定线程数，则所有计算都运行在一个线程当中，没有任何并行计算
（2）local[K]:指定使用K个Core来运行计算，比如local[2]就是运行2个Core来执行

20/09/20 09:30:53 INFO TaskSetManager:
20/09/15 10:15:00 INFO Executor: Running task 1.0 in stage 0.0 (TID 1)
20/09/15 10:15:00 INFO Executor: Running task 0.0 in stage 0.0 (TID 0)

（3）local[*]：默认模式。自动帮你按照CPU最多核来设置线程数。比如CPU有8核，Spark帮你自动设置8个线程计算。

20/09/20 09:30:53 INFO TaskSetManager:
20/09/15 10:15:58 INFO Executor: Running task 1.0 in stage 0.0 (TID 1)
20/09/15 10:15:58 INFO Executor: Running task 0.0 in stage 0.0 (TID 0)
20/09/15 10:15:58 INFO Executor: Running task 2.0 in stage 0.0 (TID 2)
20/09/15 10:15:58 INFO Executor: Running task 4.0 in stage 0.0 (TID 4)
20/09/15 10:15:58 INFO Executor: Running task 3.0 in stage 0.0 (TID 3)
20/09/15 10:15:58 INFO Executor: Running task 5.0 in stage 0.0 (TID 5