spark知识总结

劳大别肘

已于 2024-05-16 19:58:55 修改

阅读量1k

点赞数 24

文章标签： spark 大数据分布式

于 2024-05-16 19:43:58 首次发布

本文链接：https://blog.csdn.net/2301_77838071/article/details/138972800

版权

spark导论

Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。

Hadoop 之父 Doug Cutting 指出：Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark (大数据项目的 MapReduce 引擎的使用将下降，由 Apache Spark 取代)。

MapReduce介绍

(基于Hadoop的MapReduce的优缺点）

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架

MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它将数据处理过程分为两个主要阶段：Map阶段和Reduce阶段。在Map阶段，数据被分割为多个小块，并由多个并行运行的Mapper进行处理。在Reduce阶段，Mapper的输出被合并和排序，并由多个并行运行的Reducer进行最终的聚合和计算。MapReduce的优缺点如下：

优点：

    可伸缩性：MapReduce可以处理大规模的数据集，通过将数据分割为多个小块并进行并行处理，可以有效地利用集群的计算资源。它可以在需要处理更大数据集时进行水平扩展，而不需要对现有的代码进行修改。
    容错性：MapReduce具有高度的容错性。当某个节点发生故障时，作业可以自动重新分配给其他可用的节点进行处理，从而保证作业的完成。
    灵活性：MapReduce允许开发人员使用自定义的Mapper和Reducer来处理各种类型的数据和计算任务。它提供了灵活的编程模型，可以根据具体需求进行定制和扩展。
    易于使用：MapReduce提供了高级抽象，隐藏了底层的并行和分布式处理细节。开发人员只需要关注数据的转换和计算逻辑，而不需要关心并发和分布式算法的实现细节。

缺点：

    适用性有限：MapReduce适用于一些需要进行大规模数据处理和分析的场景，但对于一些需要实时计算和交互式查询的场景，MapReduce的延迟较高，不太适合。
    复杂性：尽管MapReduce提供了高级抽象，但对于开发人员来说，编写和调试MapReduce作业仍然是一项复杂的任务。需要熟悉MapReduce的编程模型和框架，并理解分布式计算的概念和原理。
    磁盘IO开销：在MapReduce中，数据需要在Map和Reduce阶段之间进行磁盘IO，这可能会导致性能瓶颈。尽管可以通过合理的数据分区和调优来减少磁盘IO的开销，但仍然需要考虑和处理数据移动和复制的开销。

综上所述，MapReduce是一种适用于大规模数据处理的编程模型和计算框架，具有可伸缩性、容错性、灵活性和易用性等优点。然而，它在实时计算和交互式查询等场景下的适用性有限，同时开发和调试MapReduce作业的复杂性也需要考虑

spark基础

第一阶段：Spark最初由美国加州伯克利大学( UC Berkelcy)的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序

第二阶段：2013年Spark加入Apache孵化器项日后发展迅猛，如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一( Hadoop磁盘MR离线式、Spark基于内存实时数据分析框架、Storm数据流分析框架）

Spark的主要特点

Scala简介

Scala是一门现代的多范式编程语言，运行于IAVA平台（JVM,JAVA虚拟机）并兼容现有的JAVA程序

Scala的特点

① Scala具备强大的并发性，支持函数式编程，可以更好地支持分布式系统。
② Scala语法简洁，能提供优雅的API。
③ Scala兼容Java，运行速度快，且能融合到Hadoop生态圈中。

二.Spark VS Hadoop

尽管 Spark 相对于 Hadoop 而言具有较大优势，但 Spark 并不能完全替代 Hadoop，Spark 主要用于替代Hadoop中的 MapReduce 计算模型。存储依然可以使用 HDFS，但是中间结果可以存放在内存中；调度可以使用 Spark 内置的，也可以使用更成熟的调度系统 YARN 等。

实际上，Spark 已经很好地融入了 Hadoop 生态圈，并成为其中的重要一员，它可以借助于 YARN 实现资源调度管理，借助于 HDFS 实现分布式存储。

此外，Hadoop 可以使用廉价的、异构的机器来做分布式存储与计算，但是，Spark 对硬件的要求稍高一些，对内存与 CPU 有一定的要求

Spark生态系统

在实际应用中，大数据处理主要包括一下3个类型：
① 复杂的批量数据处理：时间跨度通常在数十分钟到数小时之间。
② 基于历史数据的交互式查询：时间跨度通常在数十秒到数分钟之间。
③ 基于实时数据流的数据处理：时间跨度通常在数百毫秒到数秒之间。

当同时存在以上三种场景时，就需要同时部署三种不同的软件

Spark的应用场景

Spark的运行架构

1.基本概念

在具体讲解Spark运行架构之前，需要先了解以下7个重要的概念。
① RDD：是弹性分布式数据集的英文缩写，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。
② DAG：是有向无环图的英文缩写，反映RDD之间的依赖关系。
③ Executor：是运行在工作节点上的一个进程，负责运行任务，并为应用程序存储数据。
④ 应用：用户编写的Spark应用程序。
⑤ 任务：运行在Executor上的工作单元。
⑥ 作业：一个作业包含多个RDD及作用于相应RDD上的各种操作。
⑦ 阶段：是作业的基本调度单位，一个作业会分为多组任务，每组任务被称为“阶段”，或者也被称为“任务集”

2.Spark运行架构

(1）当一个Spark应用被提交时，首先需要为这个应用构建起基本的运行环境，即由任务控制节点创建一个SparkContext，由SparkContext负责和资源管理器的通信以及进行资源的申请、任务的分配和监控等。SparkContext 会向资源管理器注册并申请运行Executor的资源。
（2）资源管理器为Executor分配资源，并启动Executor进程，Executor运行情况将随着“心跳”发送到资源管理器上。

（3）SparkContext 根据 RDD 的依赖关系构建 DAG 图，DAG 图提交给 DAG 调度器进行解析，将DAG图分解成多个“阶段”（每个阶段都是一个任务集），并且计算出各个阶段之间的依赖关系，然后把一个个“任务集”提交给底层的任务调度器进行处理；Executor 向 SparkContext 申请任务，任务调度器将任务分发给 Executor 运行，同时SparkContext将应用程序代码发放给Executor。
（4）任务在Executor上运行，把执行结果反馈给任务调度器，然后反馈给DAG调度器，运行完毕后写入数据并释放所有资源。

Spark运行架构特点：

1.每个application都有自己专属的Executor进程，并且该进程在application运行期间一直驻留，executor进程以多线程的方式运行Task

2.Spark运行过程与资源管理无关，子要能够获取Executor进程并保持通信即可

3.Task采用了数据本地性和推测执行等优化机制，实现“计算向数据靠拢”

核心-RDD

1.设计背景
1.许多迭代式算法《比如机器学习、图算法等)和交互式数据挖掘工具，共同之处是，不同计算阶段之间会重用中间结果
2.目前的MapReduce框架都是把中间结果写入到磁盘中，带来大量的数据复制、磁盘Io和序列化开销
3.RDD就是为了满足这种需求而出现的，它提供了一个抽象的数据结构
4.我们不必担心底层数据的分布式持性，只需将具体的应用逻辑表达为一系列转换处理

5.不同RDD之间的转换操作形成依赖关系，可以实现管道化，避免中间数据存储

优点：惰性调用，管道化，避免同步等待，不需要保存中间结果，每次操变得简单

RDD方法归纳

转换算子

1.使用map()方法转换数据

map（）方法是一种基础的RDD转换操作，可以对 RDD 中的每一个数据元素通过某种函数进行转换并返回新的RDD。mapO方法是懒操作，不会立即进行计算。
转换操作是创建RDD的第二种方法，通过转换已有RDD生成新的RDD。因为RDD是一个不可变的集合，所以如果对 RDD 数据进行了某种转换，那么会生成一个新的 RDD。

2.使用 sortBy（）方法进行排序

sortBy0方法用于对标准RDD 进行排序，有3个可输人参数，说明如下。

（1）第1个参数是一个函数f:（T）=>K，左边是要被排序对象中的每一个元素，右边返回的值是元素中要进行排序的值。

（2）第2个参数是 ascending，决定排序后 RDD 中的元素是升序的还是降序的，默认是 true，即升序排序，如果需要降序排序则需要将参数的值设置为 false。

（3）第3个参数是numPartitions，决定排序后的RDD 的分区个数，默认排序后的分区个数和排序之前的分区个数相等，即 this.partitions.size。

第一个参数是必须输人的，而后面的两个参数可以不输人。例如，通过一个存放了 3个二元组的列表创建一个 RDD，对元组的第二个值进行降序排序，分区个数设置为1，代码如下

3.使用collect（）方法查询数据

collect：直接调用 collect 返回该 RDD 中的所有元素，返回类型是一个 Array［T数组，这是较为常用的一种方式。

4.使用flatMap（）方法转换数据

flatMap()方法将函数参数应用于RDD之中的每一个元素，将返回的迭代器（如数组、列表等）中的所有元素构成新的RDD。

使用flatMap()方法时先进行map（映射）再进行flat（扁平化）操作，数据会先经过跟map一样的操作，为每一条输入返回一个迭代器（可迭代的数据类型），然后将所得到的不同级别的迭代器中的元素全部当成同级别的元素，返回一个元素级别全部相同的RDD。这个转换操作通常用来切分单词。

行动算子

5.使用take()方法查询某几个值

take(N)方法用于获取RDD的前N个元素，返回数据为数组。take()与collect()方法的原理相似，collect()方法用于获取全部数据，take()方法获取指定个数的数据。

6.使用union()方法合并多个RDD

union()方法是一种转换操作，用于将两个RDD合并成一个，不进行去重操作，而且两个RDD中每个元素中的值的个数、数据类型需要保持一致。

7.使用filter()方法进行过滤

filter()方法是一种转换操作，用于过滤RDD中的元素。

8.使用distinct()方法进行去重

distinct()方法是一种转换操作，用于RDD的数据去重，去除两个完全相同的元素，没有参数。创建一个带有重复数据的RDD，并使用distinct()方法去重。

劳大别肘

关注

24
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
spark知识总结

(基于Hadoop的MapReduce的优缺点）MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它将数据处理过程分为两个主要阶段：Map阶段和Reduce阶段。在Map阶段，数据被分割为多个小块，并由多个并行运行的Mapper进行处理。在Reduce阶段，Mapper的输出被合并和排序，并由多个并行运行的Reducer进行最终的聚合和计算。
复制链接

扫一扫