带你深入了解spark（重生之最牛逼最详细版），2024年最新【吐血整理】

最新推荐文章于 2024-10-01 18:52:18 发布

2401_84181501

最新推荐文章于 2024-10-01 18:52:18 发布

阅读量909

点赞数 24

分类专栏： 2024年程序员学习文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/2401_84181501/article/details/137798369

版权

2024年程序员学习专栏收录该内容

77 篇文章 1 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

① mapreduce是基于磁盘的，spark是基于内存的。mapreduce会产生大量的磁盘IO，而 spark基于DAG计算模型，会减少Shaffer过程即磁盘IO减少。

②spark是多线程运行，mapreduce是多进程运行。进程的启动和关闭和会耗费一定的时间。

③兼容性：spark可单独也可以部署为on yarn模式，mapreduce一般都是on yarn模式

④shuffle与排序，mapreduce有reduce必排序

⑤spark有灵活的内存管理和策略

总结：MapReduce适用于离线批处理任务，而Spark适用于需要实时处理和交互式查询的场景。

3.结构化数据和非结构化数据有何区别？

什么是结构化数据

大多数人都熟悉结构化数据的工作原理。结构化数据，可以从名称中看出，是高度组织和整齐格式化的数据。它是可以放入表格和电子表格中的数据类型。它可能不是人们最容易找到的数据类型，但与非结构化数据相比，无疑是两者中人们更容易使用的数据类型。另一方面，计算机可以轻松地搜索它。

结构化数据也被成为定量数据，是能够用数据或统一的结构加以表示的信息，如数字、符号。在项目中，保存和管理这些的数据一般为关系数据库，当使用结构化查询语言或SQL时，计算机程序很容易搜索这些术语。结构化数据具有的明确的关系使得这些数据运用起来十分方便，不过在商业上的可挖掘价值方面就比较差。

典型的结构化数据包括：信用卡号码、日期、财务金额、电话号码、地址、产品名称等。

什么是非结构化数据

非结构化数据本质上是结构化数据之外的一切数据。它不符合任何预定义的模型，因此它存储在非关系数据库中，并使用NoSQL进行查询。它可能是文本的或非文本的，也可能是人为的或机器生成的。简单的说，非结构化数据就是字段可变的的数据。

非结构化数据不是那么容易组织或格式化的。收集，处理和分析非结构化数据也是一项重大挑战。这产生了一些问题，因为非结构化数据构成了网络上绝大多数可用数据，并且它每年都在增长。随着更多信息在网络上可用，并且大部分信息都是非结构化的，找到使用它的方法已成为许多企业的重要战略。更传统的数据分析工具和方法还不足以完成工作。

4.spark的应用场景

Spark 是一种与 Hadoop 相似的开源集群计算环境，是专为大规模数据处理而设计的快速通用的计算引擎，现已形成一个高速发展应用广泛的生态系统，主要应用场景如下：

1. Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小;

2. 由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合：

3. 数据量不是特别大，但是要求实时统计分析需求。

满足以上条件的均可采用Spark技术进行处理，在实际应用中，目前大数据在互联网公司主要应用在广告、报表、推荐系统等业务上，在广告业务方面需要大数据做应用分析、效果分析、定向优化等，在推荐系统方面则需要大数据优化相关排名、个性化推荐以及热点点击分析等。

这些应用场景的普遍特点是计算量大、效率要求高，Spark恰恰可以满足这些要求，该项目一经推出便受到开源社区的广泛关注和好评，并在近两年内发展成为大数据处理领域炙手可热的开源项目。

5.Spark运行架构以及运行模式

Spark框架的核心是一个计算引擎，整体来说，它采用了标准的master-slave的结构
图所示：展示了一个Spark执行时的基本架构，图中的Driver表示master，负责管理整个集群中的作业任务调度。图中的Executor则是slave，负责实际执行任务。

Local模式

Standalone模式的单机版，Master和Worker分别运行在一台机器的不同进程上

Standalone模式

Standalone模式即独立模式，自带完整的服务，可以单独部署到一个集群中，不需要任何的资源管理系统，只支持FIFO调度，在该模式下没有AM和NM的概念，也没有RM的概念，用户节点直接与Master交互，由Driver负责向Master申请资源，由Driver进行资源的分配和调度等。目前Spark在Standalone模式下是没有任何单点故障问题的，借助了zk思想类似hbase Master单点故障解决方案。各个节点上的资源被抽象成粗粒度的slot，有多少slot就能同时运行多少task。

Spark on Mesos模式

Spark on Mesos模式。在Spark on Mesos环境中，用户可选择两种调度模式之一运行自己的应用程序（可参考Andrew Xia的“Mesos Scheduling Mode on Spark”）

粗粒度模式（Coarse-grained Mode）：每个应用程序的运行环境由一个Dirver和若干个Executor组成，其中，每个Executor占用若干资源，内部可运行多个Task（对应多少个“slot”）。应用程序的各个任务正式运行之前，需要将运行环境中的资源全部申请好，且运行过程中要一直占用这些资源，即使不用，最后程序运行结束后，回收这些资源。举个例子，比如你提交应用程序时，指定使用5个executor运行你的应用程序，每个executor占用5GB内存和5个CPU，每个executor内部设置了5个slot，则Mesos需要先为executor分配资源并启动它们，之后开始调度任务。另外，在程序运行过程中，Mesos的Master和slave并不知道executor内部各个task的运行情况，executor直接将任务状态通过内部的通信机制汇报给Driver，从一定程度上可以认为，每个应用程序利用Mesos搭建了一个虚拟集群自己使用。

细粒度模式（Fine-grained Mode）：鉴于粗粒度模式会造成大量资源浪费，Spark on Mesos还提供了另外一种调度模式：细粒度模式，这种模式类似于现在的云计算，思想是按需分配。与粗粒度模式一样，应用程序启动时，先会启动executor，但每个executor占用资源仅仅是自己运行所需的资源，不需要考虑将来要运行的任务，之后，Mesos会为每个executor动态分配资源，每分配一些，便可以运行一个新任务，单个Task运行完之后可以马上释放对应的资源。每个Task会汇报状态给Mesos slave和Mesos Master，便于更加细粒度管理和容错，这种调度模式类似于MapReduce调度模式，每个Task完全独立，优点是便于资源控制和隔离，但缺点也很明显，短作业运行延迟大。

Spark on Yarn

当在Spark on Yarn模式下，每个Spark Executor作为一个Yarn Container在运行，同时支持多个任务在同一个Container中运行，极大地节省了任务的启动时间。在Spark中，有Yarn-Client和Yarn-cluster两种模式可以运行在Yarn上，下面是两种的区别
（1）SparkContext初始化不同，这也导致了Driver所在位置的不同，Yarn-Cluster的Driver是在集群的某一台NM上，Yarn-Client 的Driver运行在客户端
（2）而Driver会和Executors进行通信，这也导致了Yarn-Cluster在提交App之后可以关闭Client，而Yarn-Client不可以；
（3）最后再来说应用场景，Yarn-Cluster适合生产环境，Yarn-Client适合交互和调试。

standalone 作为 spark 自带的分布式部署模式，是最简单也是最基本的 spark 应用程序部署模式。

yarn 和 mesos 的区别：
(1) 就两种框架本身而言，mesos上可部署 yarn 框架。而 yarn 是更通用的一种部署框架，而且技术较成熟。
(2) mesos 双层调度机制，能支持多种调度模式，而 yarn 通过 Resource　Mananger 管理集群资源，只能使用一种调度模式。Mesos 的双层调度机制为：mesos 可接入如 yarn 一般的分布式部署框架，但 Mesos 要求可接入的框架必须有一个调度器模块，该调度器负责框架内部的任务调度。当一个 Framework 想要接入 mesos 时，需要修改自己的调度器，以便向 mesos 注册，并获取 mesos 分配给自己的资源，这样再由自己的调度器将这些资源分配给框架中的任务，也就是说，整个 mesos 系统采用了双层调度框架：第一层，由 mesos 将资源分配给框架；第二层，框架自己的调度器将资源分配给自己内部的任务。

哥们就是说，从 yarn 和 mesos 的区别可看出，它们各自有优缺点。因此实际使用中，选择哪种框架，要根据本公司的实际需要而定，可考虑现有的大数据生态环境。如我司采用 yarn 部署 spark，原因是，我司早已有较成熟的 hadoop 的框架，考虑到使用的方便性，采用了 yarn 模式的部署。