Saprk-简介+概念理解+架构+启动程序+弹性分布式数据集

欲乘风，潇潇雨

已于 2022-11-22 16:09:06 修改

阅读量326

点赞数 1

分类专栏： spark 文章标签：分布式架构大数据 spark

于 2020-08-05 12:04:18 首次发布

本文链接：https://blog.csdn.net/weixin_42151880/article/details/107812159

版权

spark 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

Why Saprk?

MapReduce编程模型的局限性

1.繁杂

仅仅map和reduce两个操作，复杂的逻辑需要大量的样板代码（太多重复性代码），开发比较复杂

2.处理效率低

map结果落盘，reduce写HDFS，多个map通过HDFS交互数据

不合适迭代处理，交互式处理和流式处理

Spark相比之下的优势

1.jobj中间的输出结果可以保存在内存中，无需读写HDFS（基于内存处理）

2.处理速度比mapreduce快乐近10倍(实际差距)

Spark的优势

1.速度快（内存处理：比MR快100倍硬盘处理：比MR快10倍）

2.易用性（支持java，scala，python，R语言，甚至是交互式Shell）

3.通用性（一栈式解决方案：批处理，交互式查询，实时流处理，图计算）

4.多种运行模式（多平台使用，不依赖Hadoop，如：Yarn，Standalone，Local）

What Spark?

Spark运行架构

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kw8wPkNX-1596600095324)(C:\Users\asus\AppData\Roaming\Typora\typora-user-images\image-20200804101112046.png)]$

1.Driver program 可以根据运行模式指定运行在各种位置上（通常也称为Spark Application或者Application Master）

2.SparkContext可以连接不同类型的Cluster Manager（Standalone、YARN、Mesos），这些 cluster managers 负责跨应用程序分配资源

3.连接后，获得集群节点上的Executor,Cluster Manager将应用程序代码发送到executors

4.最后，SparkContext发送tasks到executors运行。

注意：该驱动程序会一直监听并接受其executor传入的连接（spark.driver.port在网络配置部分）。这样，driver program必须可以寻找到工作节点的网络地址。数据不能跨应用程序（SparkContext）访问，除非写入外部系统

master node 主节点，控制资源，管理主导各节点

work node 从节点，实际执行程序

各基本组件：

Application：在Spark 上建立的用户程序，一个程序由一个驱动程序（Driver Program）和集群中的执行进程（Executer）构成。
Driver Program：运行应用程序（Application）的main函数和创建SparkContext的程序。
Executer：运行在工作节点（Work Node）上的进程。Executer负责运行任务（Task）并将各节点的数据保存在内存或磁盘中。每个应用程序都有自己对应Executer
Work Node:集群中运行应用程序（Applicatuon）的节点
Cluster Manager: 在集群上获取资源的外部服务（如Standalone,Mesos,Yarn)，称作资源管理器或集群管理器
Job: 包含多个Task的并行计算，往往由Spark Action（如save,collect）触发生成，一个Application中往往会产生多个Job
Stage:每个Job被分成了更小的任务集合（TaskSet），各个阶段（Stage）相互依赖
Task:被发送到某一个Executer的工作单元
DAGScheduler:基于Stage的逻辑调度模块,负责将每个Job分割成一个DAG图
TaskScheduler:基于Task的任务调度模块，负责每个Task的跟踪和向DAGScheduler汇报任务执行情况

How Spark？

安装流程

Spark API

1.SparkContext（负责连接Driver和Spark Cluster(Workers)）

spark的主入口
每个JVM仅有一个活跃的SparkContext

SparkContext.getOrCreate

- idea中的执行代码

import org.apache.spark.{SparkConf, SparkContext}

object SparkFirstDemo extends App {
  //创建一个SparkContext对象
  val conf: SparkConf = new SparkConf().setMaster("local[2]").setAppName("test")
  val sparkContext: SparkContext = SparkContext.getOrCreate(conf)
  //其他代码实现...(word count)
    sparkContext.textFile("file:///e:/words.txt")
    .flatMap(_.split(" "))
    .map((_,1))
    .reduceByKey(_+_)
    .collect()
    .foreach(println)
}

2.SparkSession

Spark 2.0+应用程序的主入口：包含了SparkContext、SQLContext、HiveContext以及StreamingContext

SparkSession.getOrCreate

import org.apache.spark.sql.SparkSession

object SparkSecondDemo extends App {
  val spark: SparkSession = SparkSession.builder()
    .master("local[2]")
    .appName("SessionTest")
    .getOrCreate()
  val sc= spark.sparkContext
  
  sc.textFile("file:///e:/words.txt")
    .flatMap(_.split(" "))
    .map((_,1))
    .reduceByKey(_+_)
    .collect()
    .foreach(println)
}

3.RDD / Dateset / DateRrame

三者都是弹性分布式数据集（Resilient Distributed Datasets）(RDD是将数据项拆分为多个分区的集合，存储在集群的工作节点上的内存和磁盘中，并执行正确的操作;即数据转换接口)

分布式：多节点分步协同计算
数据集：只读的、分区记录的集合，每个分区分布在不同节点，并不存储真正的数据，只是对数据及操作的描述
弹性：自动进行存储方式的切换（优先存储内存，内存不足时自动落盘）、基于Linage的高效容错机制（在任何时候都能进行重算，根据数据血统，可以自动从节点失败中恢复分区，各个分片之间的数据互不影响）、Stage失败自动重试 / Task失败自动重试、Checkpoint和Persist（checkpoint持久化到文件系统）

RDD:

1、RDD一般和spark mlib同时使用

2、RDD不支持sparksql操作

DataFrame:

1、与RDD和Dataset不同，DataFrame每一行的类型固定为Row，只有通过解析才能获取各个字段的值，如

testDF.foreach{
  line =>
    val col1=line.getAs[String]("col1")
    val col2=line.getAs[String]("col2")
}

每一列的值没法直接访问

2、DataFrame与Dataset一般与spark ml同时使用

3、DataFrame与Dataset均支持sparksql的操作，比如select，groupby之类，还能注册临时表/视窗，进行sql语句操作，如

dataDF.createOrReplaceTempView("tmp")
spark.sql("select  ROW,DATE from tmp where DATE is not null order by DATE").show(100,false)

4、DataFrame与Dataset支持一些特别方便的保存方式，比如保存成csv，可以带上表头，这样每一列的字段名一目了然

//保存
val saveoptions = Map("header" -> "true", "delimiter" -> "\t", "path" -> "hdfs://172.xx.xx.xx:9000/test")
datawDF.write.format("com.databricks.spark.csv").mode(SaveMode.Overwrite).options(saveoptions).save()
//读取
val options = Map("header" -> "true", "delimiter" -> "\t", "path" -> "hdfs://172.xx.xx.xx:9000/test")
val datarDF= spark.read.options(options).format("com.databricks.spark.csv").load()

利用这样的保存方式，可以方便的获得字段名和列的对应，而且分隔符（delimiter）可以自由指定

Dataset:

这里主要对比Dataset和DataFrame，因为Dataset和DataFrame拥有完全相同的成员函数，区别只是每一行的数据类型不同

DataFrame也可以叫Dataset[Row],每一行的类型是Row，不解析，每一行究竟有哪些字段，各个字段又是什么类型都无从得知，只能用上面提到的getAS方法或者共性中的第七条提到的模式匹配拿出特定字段

而Dataset中，每一行是什么类型是不一定的，在自定义了case class之后可以很自由的获得每一行的信息

case class Coltest(col1:String,col2:Int)extends Serializable //定义字段名和类型
/**
      rdd
      ("a", 1)
      ("b", 1)
      ("a", 1)
      * */
val test: Dataset[Coltest]=rdd.map{line=>
      Coltest(line._1,line._2)
    }.toDS
test.map{
      line=>
        println(line.col1)
        println(line.col2)
    }

可以看出，Dataset在需要访问列中的某个字段时是非常方便的，然而，如果要写一些适配性很强的函数时，如果使用Dataset，行的类型又不确定，可能是各种case class，无法实现适配，这时候用DataFrame即Dataset[Row]就能比较好的解决问题

三者转化：

RDD、DataFrame、Dataset三者有许多共性，有各自适用的场景常常需要在三者之间转换

DataFrame/Dataset转RDD：

val rdd1=testDF.rdd
val rdd2=testDS.rdd

RDD转DataFrame：

import spark.implicits._
val testDF = rdd.map {line=>
      (line._1,line._2)
    }.toDF("col1","col2")

一般用元组把一行的数据写在一起，然后在toDF中指定字段名

RDD转Dataset：

import spark.implicits._
case class Coltest(col1:String,col2:Int)extends Serializable //定义字段名和类型
val testDS = rdd.map {line=>
      Coltest(line._1,line._2)
    }.toDS

可以注意到，定义每一行的类型（case class）时，已经给出了字段名和类型，后面只要往case class里面添加值即可

Dataset转DataFrame：

把case class封装成Row

import spark.implicits._
val testDF = testDS.toDF

DataFrame转Dataset：

import spark.implicits._
case class Coltest(col1:String,col2:Int)extends Serializable //定义字段名和类型
val testDS = testDF.as[Coltest]

这种方法就是在给出每一列的类型后，使用as方法，转成Dataset，这在数据类型是DataFrame又需要针对各个字段处理时极为方便

特别注意：

在使用一些特殊的操作时，一定要加上 import spark.implicits._ 不然toDF、toDS无法使用

case class Coltest(col1:String,col2:Int)extends Serializable //定义字段名和类型
val testDS = testDF.as[Coltest]


这种方法就是在给出每一列的类型后，使用as方法，转成Dataset，这在数据类型是DataFrame又需要针对各个字段处理时极为方便

**特别注意：**

在使用一些特殊的操作时，一定要加上 import spark.implicits._ 不然toDF、toDS无法使用

欲乘风，潇潇雨

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录