Spark系列七：Spark 任务执行的流程详解及相关概念

最新推荐文章于 2024-07-02 09:36:29 发布

静静七分醉

最新推荐文章于 2024-07-02 09:36:29 发布

阅读量771

点赞数 1

分类专栏： spark Spark从入门（小白）到实战（精通啃源码）

本文链接：https://blog.csdn.net/m0_37657725/article/details/94969024

版权

spark 同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

Spark从入门（小白）到实战（精通啃源码）

11 篇文章 0 订阅

订阅专栏

spark总体流程图示

图解

详解DAG（Directed Acyclic Graph）

spark总体流程图示：

图解：

四个步骤
1.RDD Objects:构建DAG（调用RDD上的方法）
2.DAGScheduler将DAG切分Stage（切分的依据是Shuffle），将Stage中生成的Task以TaskSet集合的形式给TaskScheduler
3.TaskScheduler调度Task（根据资源情况将Task调度到相应的Executor中）
4.Work:Executor接收Task，然后将Task丢入到线程池中执行

详解DAG（Directed Acyclic Graph）:

DAG 有向无环图,表示数据执行过程，有方法，无闭环
DAG描述多个RDD的转换过程，任务执行时，可以按照DAG的描述，执行真正的计算（数据被操作的一个过程）
DAG是有边界的：开始（通过SparkContext创建的RDD），结束（触发Action，调用run Job就是一个完整的DAG就形成了，一旦触发Action就形成了一个完整的DAG）
一个RDD只是描述了数据计算过程中的一个环节，而DGA由一到多个RDD组成，描述了数据计算过程中的所有环节
一个Spark Application中是有多少个DAG：一到多个（取决于触发了多少次Action）

shuffle的定义

shuffle的含义是洗牌，将数据打散，父RDD一个分区中的数据如果给了子RDD的多个分区（只有存在这种可能），就是shuffle
shuffle会有网络传输数据，但是有网络传输，并不意味着就是shuffle

详解Stage

一个DAG中可能有产生多种不同类型和功能的Task，会有不同的阶段
DAGScheduler：将一个DAG切分成一到多个Stage，DAGScheduler切分的依据是Shuffle（宽依赖）
RDD的依赖关系：窄依赖（narrow dependency）和宽依赖（wide dependency）

从图中可以总结出：窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用（独生子女）

宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition（超生）

上图中有个特殊的join,下图进行解释一下：下图这个join为宽依赖。存在一个分区里面的数据给了不同的分区，

上面那幅图中，一个分区的数据都给了一个分区。因为它下游就只有一个分区。

同一个分区不能join

有三个Stage,6个task,前两个stage都是把数据写到磁盘，并行化

所以join大部分是宽依赖，但也会有窄依赖

在看另一种情况：为窄依赖，先分组再join.

有三个Stage,6个task,前两个stage都是把数据写到磁盘，并行化,第三个stage包含groupByKey和join

jion的时候改变分区数时，会有5个stage,这个RDD的分区器和他所有父依赖的分区器一样，并且分区数量一样，那么就是窄依赖，否则是宽依赖

RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（即血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。

为什么要切分Stage？

   一个复杂的业务逻辑（将多台机器上具有相同属性的数据聚合到一台机器上：shuffle）
   如果有shuffle，那么就意味着前面阶段产生的结果后，才能执行下一个阶段，下一个阶段的计算要依赖上一个阶段的数据。
   在同一个Stage中，会有多个算子，可以合并在一起，我们称其为pipeline（流水线：严格按照流程、顺序执行）

总结

细节流程

总体流程

线程池

这里介绍了三种线程池

public class ThreadPoolDemo {

    public static void main(String[] args) {

        //创建一个单线程的线程池
        //ExecutorService pool = Executors.newSingleThreadExecutor();

        //固定大小的线程池
        //ExecutorService pool = Executors.newFixedThreadPool(5);


        //可缓冲的线程词(可以有多个线程)，看计算机性能，4核8线程池
        ExecutorService pool = Executors.newCachedThreadPool();

        for(int i = 1; i <= 20; i ++) {

            pool.execute(new Runnable() {
                @Override
                public void run() {
                    //打印当前线程的名字
                    System.out.println(Thread.currentThread().getName());
                    try {
                        Thread.sleep(5000);
                    } catch (InterruptedException e) {
                        e.printStackTrace();
                    }
                    System.out.println(Thread.currentThread().getName() + " is over");
                }
            });

        }

        System.out.println("all Task is submitted");
        //pool.shutdownNow();

    }
}

序列化

总体思路，序列化之前打印一下地址，序列化之后再读取两次，分别打印地址，三次地址都不一样，说明被实例化多次
序列化：可以写入文件，可以在网络之间传输

Task序列化在Spark中应用：在Driver端创建这个实例，序列化后发送出去（序列化的时候知道了以后从哪里了读取数据，假如是HDFS，则知道以后在哪个切片读数据；并且知道以后该如何执行，根据RDD的转换关系（调用那个方法，传入了什么函数）’），发生给Executor，Executor接收后，反序列化，用一个实现了Runnable接口一个类包装一下，然后丢到线程池中，包装的run方法就会执行

class MapTask extends Serializable{

  def m1(path: String): String = {
    path.toString
  }

  def m2(line: String): Array[String] = {
    line.split(" ")
  }
}

object SerTask {

  def main(args: Array[String]): Unit = {

    //new一个实例，然后打印她的hashcode值
    val t = new MapTask
    println(t)  //打印的是内存地址
    
    序列化，可以把这个流对象写在文件中
    val oos = new ObjectOutputStream(new FileOutputStream("./t"))
    oos.writeObject(t)
    oos.flush()
    oos.close()
    
	//反序列化两次
    val ois1 = new ObjectInputStream(new FileInputStream("./t"))
    val o1 = ois1.readObject()
    println(o1)
    ois1.close()

    val ois2 = new ObjectInputStream(new FileInputStream("./t"))
    val o2 = ois2.readObject()
    println(o2)
    ois2.close()

  }
}