![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark走马观花
qq_22796957
这个作者很懒,什么都没留下…
展开
-
Intellij IDEA构建Spark2.0以上工程示例
Intellij IDEA新建Spark2.0以上Maven工程示例 长时间不用IDEA新建工程,新建的步骤都忘记了,再次记录一下,Spark新版中SparkSession需要依赖的包与SparkContext不一样,需要导入的jar包也是不同的。这里需要安装Java的JDK,新建工程会用到。 首先,新建工程New -> Project 选择Maven工程,选择JDK版本 命名GroupId和ArtifactId,GroupId是项目所属组织的唯一标识,ArtifactId是项目的唯一标识,也是项转载 2020-08-02 07:27:53 · 165 阅读 · 0 评论 -
IDEA中使用Spark SQL查询Hive
1、使用Maven搭建项目环境,添加Maven依赖 <properties> <scala.version>2.11.8</scala.version> <spark.version>2.3.1</spark.version> </properties> <dependencies>原创 2019-03-08 10:42:50 · 1255 阅读 · 0 评论 -
Spark2.11 任务划分以及执行流程
1、spark Application中可以由不同的action触发job,也就是说一个Application里可以有很多的job,每个job是由一个或者多个stage构成的,后面的stage依赖前面的stage,只有前面依赖的stage计算完成后面的stage才会计算;2、stage划分的就是根据宽依赖如:reduceByKey、groupByKey等前后就需要划分为两个stage;3、由act...原创 2018-06-18 16:52:51 · 1613 阅读 · 0 评论 -
Spark2.11 Executor的启动注册和执行任务的流程
一、当master在接收到RegisterApplication消息后会向worker发送LaunchDriver和LaunchExecutor消息来分别启动Driver和Executor。实际上这里启动Executor是指的启动CoarseGrainedExecutorBackend进程,而Executor只是CoarseGrainedExecutorBackend的内部的对象。二、实际上Dri...原创 2018-06-18 09:39:28 · 596 阅读 · 0 评论 -
Spark2.11 启动Driver以及Executor流程
一、首先client会向master注册application,然后调用scschedule()开始启动Driver和Executor流程,分别向worker发送LaunchDriver和launchExecutor指令启动Driver和Executor。二、Driver启动流程:worker通过DriverRunner启动线程的方式启动Driver三、Executor的启动流程跟Driver 的...原创 2018-06-17 18:54:15 · 501 阅读 · 0 评论 -
spark2.11 资源调度流程(cluster模式下Driver、Executor的调度)
Spark只有在cluster模式下启动时,才会有Driver的资源调度,如果在client模式下启动,Driver就在提交Job的机器上启动。资源调度指的是应用程序获得的计算资源,任务调度是在资源调度的基础上进行的。Master是负责资源调度和管理的,每次有新的应用程序或者集群资源发生变化的时候都会重新资源调度(也就是schedule()方法的执行);发生资源变化的动作有:RegisterWor...原创 2018-06-17 14:16:30 · 424 阅读 · 0 评论 -
Spark Application的调度算法
本文转自:https://www.cnblogs.com/francisYoung/p/5205420.html要想明白spark application调度机制,需要回答一下几个问题:1.谁来调度?2.为谁调度?3.调度什么?3.何时调度?4.调度算法前四个问题可以用如下一句话里来回答:每当集群资源发生变化时,active master 进程 为 所有已注册的并且没有调度完毕的applicati...转载 2018-06-16 20:15:16 · 262 阅读 · 0 评论 -
Spark 资源池简介
本文转自地址:http://www.cnblogs.com/francisYoung/p/5209798.html 在一个application内部,不同线程提交的Job默认按照FIFO顺序来执行,假设线程1先提交了一个job1,线程2后提交了一个job2,那么默认情况下,job2必须等待job1执行完毕后才能执行,如果job1是一个长作业,而job2是一个短作业,那么这对于提交job...转载 2018-06-16 20:13:45 · 739 阅读 · 0 评论 -
Spark2.11 Standalone模式下Driver、Executor启动流程源码概要
Spark 应用程序启动的时候必须依赖SparkContext类,在SparkContext实例化的时候主要的工作是:实例化DAGScheduler job调度器,TaskSchedulerImpl 任务调度器,StandaloneSchedulerBackend通信实体。 实例化StandaloneSchedulerBackend后会将其传给TaskSchedulerImpl 底层任务调度器,同...原创 2018-06-16 20:07:38 · 732 阅读 · 0 评论