Spark学习笔记(一):Spark概述与运行原理

最近的项目数据太大,小周终于也投入了大数据的怀抱,开始了Spark编程学习之路,被迫营业

系列博客是学习厦门大学林子雨老师spark编程基础课程的笔记,方便回顾

windows环境可以参考这里Pyspark配置

  • Spark概述 

  • Spark最初由美国加州大学伯克利分校UC Berkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序
  • 2013Spark加入Apache孵化器项目后发展迅猛,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(HadoopSparkStorm
  • Spark2014年打破了Hadoop保持的基准排序纪录

  •  支持多语言

 

大数据主要的关键技术基础是分布式存储分布式处理

Hadoop生态通过MapReduce实现数据的分布式处理,而Spark是用来代替MapReduce的一种更高效的组件,Spark只是代替了MapReduce的分布式处理,而分布式存储目前的主流框架仍是基于Hadoop生态中的HDFS组件。

  • 使用Hadoop进行迭代计算(mapreduce)非常耗资源
mapreduce

  • Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据
Spark

Spark会取代Hadoop吗?

Spark和Hadoop生态系统共存共荣

Hadoop包括两大核心:HDFSMapReduce

Spark作为计算框架,与MapReduce是对等的

谈到“取代”,Spark应该是取代MapReduce,而不是整个Hadoop

Spark借助于HadoopHDFSHBase等来完成数据的存储,然后,由Spark完成数据的计算

  •  Spark运行基本流程

RDD Resillient Distributed Dataset (弹性分布式数据集),分布式内存的一个抽象概念, 提供了一种高度受限的共享内存模型
DAG Directed Acyclic Graph (有向无环图),反映 RDD 之间的依赖关系
Executor :运行在工作节点( WorkerNode )的一个进程,负责运行 Task
应用( Application) :用户编写的 Spark 应用程序
任务( Task ):运行在 Executor 上的工作单元
作业( Job :一个 作业 包含多个 RDD 及作用于相应 RDD 上的各种操作
阶段( Stage :是 作业 的基本调度单位,一个 作业 会分为多组 任务 ,每组 任务 被称为 阶段 ,或者也被称为 任务集合 ,代表了一组关联的、相互之间没有 Shuffle 依赖关系的任务组成的任务集
Spark中各种概念之间的相互关系
 
  • 一个应用由一个Driver和若干个作业构成,一个作业由多个阶段构成,一个阶段由多个没有Shuffle关系的任务组成。
  • 当执行一个应用时,Driver会向集群管理器申请资源,启动Executor,并向Executor发送应用程序代码和文件,然后在Executor上执行任务,运行结束后,执行结果会返回给Driver或者写到HDFS或者其他数据库中 
Spark运行架构
  • RDD运行原理

1.设计背景

许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘工具 共同之处是,不同计算阶段之间会重用中间结果
目前的 MapReduce 框架都是把中间结果写入到 稳定存储(比如磁盘) 中,带来了大量的数据复制、磁盘 IO 和序列化开销
RDD 就是为了满足这种需求而出现的,它提供了一个抽象的数据架构,我们不必担心底层数据的分布式特性,只需将具体的应用逻辑表达为一系列转换处理 ,不同 RDD 之间的转换操作形成依赖关系,可以实现管道化,避免中间数据存储

 

2.RDD概念 

  • 一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同分区可以被保存到集群中不同的节点上,从而可以在集群中的不同节点上进行并行计算

  • RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,不能直接修改,只能基于稳定的物理存储中的数据集创建RDD,或者通过在其他RDD上执行确定的转换操作(如mapjoingroup by)而创建得到新的RDD
 

 3.RDD执行过程

RDD 经过一系列的转换( Transformation )操作,每一次都会产生不同的RDD,供给下一个转换操作使用。但是不会进行真正的计算,直到最后一个 RDD经过动作(Action)操作触发真正的计算,即惰性调用机制。

4.根据RDD的依赖关系划分阶段 

窄依赖(一对一或者多对一)
一个父RDD 的分区对应于一个子 RDD 的分区或多个父 RDD 的分区对应于一个子 RDD 的分区

宽依赖(一对多)

存在一个父RDD 的一个分区对应一个子 RDD 的多个分区

逻辑上,每个RDD 操作都是一个fork/join(一种用于并行执行任务的框架),把计算fork 到每个RDD 分区,完成计算后对各个分区得到的结果进行join 操作,然后fork/join下一个RDD 操作。

所以对于窄依赖可以避免数据落地,最后再join,实现了相对于mapreduce的优化

而宽依赖由于存在shuffle(洗牌)操作,即一对多,所以无法实现 相对于mapreduce的优化

 所以需要根据RDD之间的依赖关系(有向无环图):窄依赖,宽依赖关系来划分阶段(任务集合)来实现整体优化

Spark通过分析各个RDD的依赖关系生成了DAG,再通过分析各个RDD中的分区之间的依赖关系来决定如何划分Stage,

具体划分方法是:

DAG 中进行反向解析,遇到宽依赖就断开
遇到窄依赖就把当前的 RDD 加入到 Stage
将窄依赖尽量划分在同一个 Stage 中, 实现流水线计算
stage划分实例

 5.RDD运行过程

再总结一下RDDSpark架构中的具体运行过程

  1. 创建RDD对象;
  2. SparkContext负责计算RDD之间的依赖关系,构建DAG
  3. DAGScheduler负责把DAG图分解成多个Stage,每个Stage中包含了多个Task,每个Task会被TaskScheduler分发给各个WorkerNode上的Executor去执行。

            

再次感谢和推荐林子雨老师的课程: 厦门大学林子雨老师spark编程基础

### 回答1: Spark SQL是Apache Spark中的一个模块,它提供了一种基于结构化数据的编程接口。Spark SQL可以让用户使用SQL语句来查询数据,也可以让用户使用DataFrame API来进行数据处理和分析。Spark SQL支持多种数据源,包括Hive、JSON、Parquet等。Spark SQL还提供了一些高级功能,如支持用户自定义函数、支持分布式机器学习算法等。Spark SQL的目标是让用户能够方便地使用Spark进行数据处理和分析,同时提供高性能和可扩展性。 ### 回答2: Spark SQL是一个基于Spark平台的关系型数据处理引擎,它支持使用SQL语句和数据框架操作数据,可以轻松处理结构化和半结构化的数据。它可以从多个数据源中读取数据,包括Hive、JSON、Parquet、ORC等。通过Spark SQL,用户可以方便地使用SQL查询语言来分析和处理数据,大大降低了开发和组织数据流的难度。 Spark SQL主要有两种执行模式:SQL查询和DataFrame操作。其中SQL查询基于Hive的SQL语法解析器,支持HiveQL中的大多数语言特性(如UDF、窗口函数等)。在执行计划生成时,Spark SQL采用了Spark计算引擎,支持各种Spark算子的优化,以便最大程度地提高查询性能。 另一种操作模式是使用DataFrame API,它可以灵活地进行数据转换和处理,并提供了类似于SQL的语法。与SQL查询不同,DataFrame API通过静态检查和编译器优化来避免由SQL查询引起的语法错误和潜在性能问题。 除了这两种基本的操作模式外,Spark SQL还提供了一些高级特性,如嵌套查询、表和视图、共享变量等。这些特性扩展了Spark SQL的功能,使得它可以更加灵活地进行数据处理和查询。 Spark SQL是Spark的重要组成部分,它在数据存储和处理方面提供了很多便利。通过最大程度地利用Spark引擎的优势,Spark SQL能够处理海量数据,并将其转换为有用的信息。这使得Spark SQL成为实现数据分析、机器学习和人工智能的重要工具之一。 ### 回答3: Spark SQL是一种基于Spark平台的数据处理引擎,它提供了高度优化的查询引擎和优秀的支持SQL语句的API。它允许用户使用SQL语句查询来处理大规模数据集,同时仍然支持复杂数据类型和计算Spark SQL支持数据源,包括Parquet,Avro,JSON等一系列结构化的和半结构化的数据源。 Spark SQL在历史上是一个单独的模块,在Spark 2.0之后,它已经成为Spark的核心组件之一,可以直接Spark核心API中使用,包括作为一个RDD库或DataFrame/DataSet的API。 Spark SQL的优点如下: 1. 它可以向受过传统SQL培训的用户展示更高级别,更强大的API。 2. 它提供数据集和RDD的良好互操作性。Spark SQL可以通过未被优化的RDD/DataSet API访问同一数据。 3. 它支持Spark的执行引擎以加速查询处理。 使用Spark SQL的时候,可以根据需要选择编程语言,如Scala,Java,Python,SQL等。在Spark核心API中,Spark SQL提供了两种API来处理结构化数据: 1. DataFrame API:DataFrame是具有许多操纵数据的功能的分布式数据集,类似于数据库中的表。 2. Dataset API:Dataset是Scala和Java API,它是类型安全的,并且提供与RDD API相同的API,但比RDD具有更好的性能和可读性。 Spark SQL是Spark生态系统中重要的组成部分之一。在处理大规模数据时,使用Spark SQL可以方便地利用Spark的强大功能,提高处理效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

fff2zrx

谢谢老板

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值