大数据技术之Spark

最新推荐文章于 2024-06-19 23:05:00 发布

NiklausYu

最新推荐文章于 2024-06-19 23:05:00 发布

阅读量869

点赞数 1

分类专栏：大数据技术文章标签： spark

本文链接：https://blog.csdn.net/Niklaus1028/article/details/118597796

版权

大数据技术专栏收录该内容

7 篇文章 0 订阅

订阅专栏

简介

spark是一个开源免费的，通用的，可靠性的分布式计算框架，可用于处理海量的数据
Apache Spark™是用于大规模数据处理的统一分析引擎。

常见的计算框架

MapReduce -> 离线批处理
Spark ->离线批处理+实时处理
Storm ->实时处理
Flink ->实时处理

Hadoop MapReduce 存在问题

当发生shuffle时底层会产生大量的磁盘I/O，会降低整体的性能。此外还会产生大量的排序操作，耗费cpu，并且不能做到对中间结果集的服用，导致大量的重新计算，也会降低整体性能

所以spark在设计时，吸取了MapReduce的经验教训，做出相应的改进和优化，比如尽量减少shuffle的产生，减少不必要的排序，以及支持对结果集的复用

spark的模块构成

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DapSy1b7-1625794419087)(http://spark.apache.org/images/spark-stack.png)]

从上面可以看出，spark团队的目标是能够一栈式处理大数据所有场景：

离线批处理
数据交互式查询以及数据仓库
实时计算
复杂的数据分析

spark的使用模式

常见的有三种

local模式：本地单机模式。一般用于练习或测试
Standlone模式：Spark集群模式。集群的资源管理由spark自身来管理
On Yarn模式：spark集群模式。集群的资源由yarn管理

RDD

弹性分布式数据集。初学时，把RDD看做是一种集合，用于存储数据，类比于Array或List。RDD的特点在于：

RDD有分区机制：可以分布式并行的处理同一个RDD数据集，从而极大提高处理效率。RDD分区数量由程序员自己定
RDD有容错机制，分区数据丢失可以进行恢复

RDD是Spark最核心的概念，需要把数据封装到RDD中，然后通过spark计算引擎进行处理
创建RDD的两种途径：

将一个普通的集合（Array或List）转变成RDD
val r1=sc.parallelize(a1,2)

sc：spark context
a1 ：普通集合
2:RDD的分区数
r1.partitions.size 查看分区数
r1.glom.collect :查看每个分区的数据

val r2 =sc.makeRDD(List(1,2,3,4),2)
2. 读取外部存储系统文件（Linux，windows，hdfs等等）将整个文件的数据变为RDD以性为单位进行处理，即一行是一条数据
3. 读取本地文件 val r4 = sc.textFile(“file:///home/1.txt”,2)
4. 读取hdfs文件：val r5 = sc.textFile(“hdfs://hadoop01:9000/1.txt”,2)

RDD的操作

RDD的操作总分有三种

Transformation 变换操作，变换操作都是懒操作（懒方法），即调用方法后，不是马上执行，当触发某一个Action方法时才会真正执行，比如textFile就是一个懒方法。此外，每当调用一个懒方法，就会返回一个新的RDD
Action执行操作
Controller控制操作

Spark的DAG（有向无环图）

//单词统计
data.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

DAG中记录了RDD之间的依赖关系，借助RDD之间的依赖关系可以实现数据容错，即某一个子分区
数据丢失时，找他对应的父分区结合依赖关系进行恢复

RDD的依赖关系

窄依赖：对于窄依赖操作，它们只是将Partition的数据根据转换的规则进行转化，并不涉及其他的处理，可以简单地认为只是将数据从一个形式转换到另一个形式。
所以对于窄依赖，并不会引入昂贵的Shuffle。所以执行效率非常高。如果整个DAG中存在多个连续的窄依赖，则可以将这些连续的窄依赖整合到一起连续执行，中间不执行shuffle 从而提高效率，这样的优化方式称之为流水线优化。
此外，针对窄依赖，如果子RDD某个分区数据丢失，只需要找到父RDD对应依赖的分区，恢复即可。但如果是宽依赖，当分区丢失时，最糟糕的情况是要重算所有父RDD的所有分区。
宽依赖，对于groupByKey这样的操作，子RDD的所有Partition（s）会依赖于parent RDD的所有Partition（s），子RDD的Partition是parent RDD的所有Partition Shuffle的结果。
宽依赖会产生shuffle，底层会发生磁盘I/O以及网络数据通信较为复杂过程，所以性能上会降低，spark也是会产生shuffle，窄依赖就没有shuffle，所以会提高整体的执行效率

shuffle（洗牌）

即按照分组（分区条件）将数据分发到正确分区

在这里插入图片描述

Stage的划分

1）Spark在执行Transformation类型操作时都不会立即执行，而是懒执行（计算）
2）执行若干步的Transformation类型的操作后，一旦遇到Action类型操作时，才会真正触发执行（计算）
3）执行时，从当前Action方法向前回溯，如果遇到的是窄依赖则应用流水线优化，继续向前找，直到碰到某一个宽依赖
4）因为宽依赖必须要进行shuffle，无法实现优化，所以将这一次段执行过程组装为一个stage
5）再从当前宽依赖开始继续向前找。重复刚才的步骤，从而将整个DAG还分为若干的stage

stage（阶段），本质上一组task的集合，一个分区对应一个task，连续窄依赖会出现流水线优化
一个分区对应一个task，一个action执行对应一个job
一个app（Application）应用程序，一个Ap至少有一个job

在这里插入图片描述

spark集群搭建

修改conf下的spark-env.sh

在这里插入图片描述

Spark集群提交jar包以及运行的流程

在这里插入图片描述

Spark集群架构

在这里插入图片描述

Spark集群架构图细节补充

在这里插入图片描述

Spark Shuffle Manager

在这里插入图片描述

一、Hash Based Shuffle Manager

在这里插入图片描述

二、Sort Based Shuffle Manager

在这里插入图片描述

RDD的持久化机制

在这里插入图片描述

Spark的Checkpoint机制

在这里插入图片描述

NiklausYu

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据技术之Spark

简介spark是一个开源免费的，通用的，可靠性的分布式计算框架，可用于处理海量的数据Apache Spark™是用于大规模数据处理的统一分析引擎。常见的计算框架MapReduce -> 离线批处理Spark ->离线批处理+实时处理Storm ->实时处理Flink ->实时处理Hadoop MapReduce 存在问题当发生shuffle时底层会产生大量的磁盘I/O，会降低整体的性能。此外还会产生大量的排序操作，耗费cpu，并且不能做到对中间结果集的服用，导致
复制链接

扫一扫