解密SparkStreaming运行机制和架构进阶之Job和容错

最新推荐文章于 2024-05-26 00:15:00 发布

二府村

最新推荐文章于 2024-05-26 00:15:00 发布

阅读量1.8k

点赞数

分类专栏： SparkDream 文章标签： spark 容错

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/erfucun/article/details/52317276

版权

本博文主要包括以下内容：

解密Spark Streaming Job架构和运行机制
解密Spark Streaming容错架构和运行机制

一、解密SparkStreaming Job架构和运行机制：

理解SparkStreaming的Job的整个架构和运行机制对于精通SparkStreaming是至关重要的。我们知道对于一般的Spark应用程序来说，是RDD的action操作触发了Job的运行。那对于SparkStreaming来说，Job是怎么样运行的呢？我们在编写SparkStreaming程序的时候，设置了BatchDuration，Job每隔BatchDuration时间会自动触发，这个功能肯定是SparkStreaming框架提供了一个定时器，时间一到就将编写的程序提交给Spark，并以Spark job的方式运行。

这里面涉及到两个Job的概念：

这里写图片描述

每个BatchInterval会产生一个具体的Job，其实这里的Job不是Spark Core中所指的Job，它只是基于DStreamGraph（代表RDD的依赖关系具体构成）而生成的RDD的DAG而已，从Java角度讲，相当于Runnable接口实例，此时要想运行Job需要提交给JobScheduler，在JobScheduler中通过线程池的方式找到一个单独的线程来提交Job到集群运行（其实是在线程中基于RDD的Action触发真正的作业的运行），为什么使用线程池呢？

作业不断生成，所以为了提升效率，我们需要线程池；这和在Executor中通过线程池执行Task有异曲同工之妙；
有可能设置了Job的FAIR公平调度的方式，这个时候也需要多线程的支持；
上面提交的Spark Job本身。单从这个时刻来看，此次的Job和Spark core中的Job没有任何的区别。

下面我们看看job运行的过程：
1.首先实例化SparkConf，设置运行期参数。

val conf = new SparkConf().setAppName("--")

2.实例化StreamingContext，设置batchDuration时间间隔来控制Job生成的频率并且创建Spark Streaming执行的入口。

val ssc = new StreamingContext(conf,Seconds(20))

3，StreamingContext.scala的第183行

private[streaming] val scheduler = new JobScheduler(this)

4，JobScheduler.scala的第50行

private val jobGenerator = new JobGenerator(this)

5，StreamingContext调用start方法。

def start(): Unit = synchronized {
  state match {
    c

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
解密SparkStreaming运行机制和架构进阶之Job和容错

本博文主要包括以下内容：解密Spark Streaming Job架构和运行机制解密Spark Streaming容错架构和运行机制一、解密SparkStreaming Job架构和运行机制：理解SparkStreaming的Job的整个架构和运行机制对于精通SparkStreaming是至关重要的。我们知道对于一般的Spark应用程序来说，是RDD的action操作触发了Job的运行。那对于
复制链接

扫一扫

专栏目录

二府村 CSDN认证博客专家 CSDN认证企业博客

码龄10年

50: 原创

18万+: 周排名

133万+: 总排名

14万+: 访问

: 等级

1903: 积分

55: 粉丝

20: 获赞

6: 评论

68: 收藏

私信

关注

热门文章

分类专栏

Scala 7篇
Spark梦想 30篇
Mevan 3篇
SparkDream 8篇
Spark-face 2篇

最新评论

Spark Streaming基于kafka的Direct详解
猿来如此dj: check point 和getorcreate 到底怎么结合使用，没有说明白，能用代码demo 看一下吗
Spark Streaming基于kafka的Direct详解
小驴淘米666: 您好，我现在使用spark streaming 消费kafka数据，使用direct方式，但是每次重启时都会从数据的最开始重新进行消费，能不能就这个问题进行指导一下？
Spark Streaming基于kafka的Direct详解
V_Gbird: 想请问一下如果 zk和Receiver中的数据不同步应该如何调优能避免这样的问题呢
Spark SQL 下DateFrame的初步认识（2）
zccao_gong: ok
Spark streaming基于kafka 以Receiver方式获取数据原理和案例实战
「已注销」: 博文内容源自DT大数据梦工厂Spark课程。。。不是原创？？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。