spark源码分析
文章平均质量分 90
zisheng_wang_DATA
这个作者很懒,什么都没留下…
展开
-
Spark 定制版:016~Spark Streaming源码解读之数据清理内幕彻底解密
本讲内容:a. Spark Streaming数据清理原因和现象 b. Spark Streaming数据清理代码解析注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们之所以用一节课来讲No Receivers,是因为企业级Spark Streaming应用程序开发中在越来越多的采用No Receivers的方式。No Receive原创 2016-06-21 21:02:03 · 7273 阅读 · 0 评论 -
Spark 定制版:002~Spark Streaming(二)
本讲内容:a. 解密Spark Streaming运行机制 b. 解密Spark Streaming架构注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾:上节课谈到技术界的寻龙点穴,Spark就是大数据的龙脉,而Spark Streaming就是Spark的穴位。假如要构建一个强大的Spark应用程序 ,Spark Streaming 是一个值原创 2016-05-07 01:26:43 · 5024 阅读 · 0 评论 -
Spark 定制版:003~Spark Streaming(三)
本讲内容:a. Spark Streaming Job 架构和运行机制 b. Spark Streaming Job 容错架构和运行机制注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾:上节课谈到Spark Streaming是基于DStream编程。DStream是逻辑级别的,而RDD是物理级别的。DStream是随着时间的流动内部将集合封装原创 2016-05-08 17:43:04 · 3698 阅读 · 0 评论 -
Spark 定制版:004~Spark Streaming事务处理彻底掌握
本讲内容:a. Exactly Once b. 输出不重复注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾:上节课通过案例透视了Spark Streaming Job架构和运行机,并结合源码进行了详细解说;同时也了解了Spark Streaming Job的容错机制,包括 Executor 与 Driver两方面的容错机制。也就是说Job的事务处原创 2016-05-09 00:13:58 · 9680 阅读 · 1 评论 -
Spark 定制版:005~贯通Spark Streaming流计算框架的运行源码
本讲内容:a. 在线动态计算分类最热门商品案例回顾与演示 b. 基于案例贯通Spark Streaming的运行源码注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上节课主要从事务视角为大家探索Spark Streaming架构机制;Spark Streaming程序分成而部分,一部分是Driver,另外一部分是Executor。通过对Driv原创 2016-05-09 01:10:48 · 3899 阅读 · 0 评论 -
Spark 定制版:006~Spark Streaming源码解读之Job动态生成和深度思考
本讲内容:a. Spark Streaming Job生成深度思考 b. Spark Streaming Job生成源码解析注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上节课,主要是从Spark Streaming+Spark SQL来实现分类最热门商品的在线动态计算的事例代码开始,并通过Spark源代码给大家贯通Spark Streami原创 2016-05-23 00:10:06 · 2648 阅读 · 0 评论 -
Spark 定制版:007~Spark Streaming源码解读之JobScheduler内幕实现和深度思考
本讲内容:a. JobScheduler内幕实现 b. JobScheduler深度思考注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上节课,我们以JobGenerator类为重心,为大家左右延伸,解密Job之动态生成;并总结出了Job之动态生成的三大核心:a. JobGenerator: 负责Job生成b. JobSheduler:负责Job原创 2016-05-24 23:22:48 · 10994 阅读 · 0 评论 -
Spark 定制版:008~Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考
本讲内容:a. DStream与RDD关系的彻底的研究 b. Streaming中RDD的生成彻底研究注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上节课,我们重点给大家揭秘了JobScheduler内幕;可以说JobScheduler是整个Spark Streming的调度的核心,其地位相当于Spark Core中的DAGScheduler原创 2016-05-25 23:52:19 · 11295 阅读 · 0 评论 -
Spark 定制版:009~Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考
本讲内容:a. Receiver启动的方式设想 b. Receiver启动源码彻底分析注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们给大家具体分析了RDD的物理生成和逻辑生成过程,彻底明白DStream和RDD之间的关系,及其内部其他有关类的具体依赖等信息:a. DStream是RDD的模板,其内部generatedRDDs 保原创 2016-05-30 01:40:14 · 8898 阅读 · 0 评论 -
Spark 定制版:010~Spark Streaming源码解读之流数据不断接收全生命周期彻底研究和思考
本讲内容:a. 数据接收架构设计模式 b. 数据接收源码彻底研究注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们给大家具体分析了Receiver启动的方式及其启动设计带来的多个问题:a. 如果有多个InputDStream,那就要启动多个Receiver,每个Receiver也就相当于分片partition,那我启动Receiver原创 2016-05-30 22:58:14 · 2177 阅读 · 0 评论 -
Spark 定制版:011~Spark Streaming源码解读之Driver中的ReceiverTracker架构设计以及具体实现彻底研究
本讲内容:a. ReceiverTracker的架构设计 b. 消息循环系统 c. ReceiverTracker具体实现注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们主要给大家介绍Spark Streaming在接收数据的全生命周期贯通;a. 当有Spark Streaming有应用程序的时候Spark Streaming会持原创 2016-06-02 13:01:25 · 3161 阅读 · 0 评论 -
Spark 定制版:012~Spark Streaming源码解读之Executor容错安全性
本讲内容:a. Executor的WAL机制详解 b. 消息重放Kafka注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们主要解密了ReceiverTracker具体的架构及其功能、源码实现;ReceiverTracker的架构设计a. ReceiverTracker以Driver中具体的算法在具体的Executor之上启动Rece原创 2016-06-12 21:21:37 · 1595 阅读 · 0 评论 -
Spark 定制版:013~Spark Streaming源码解读之Driver容错安全性
本讲内容:a. ReceiverBlockTracker容错安全性 b. DStreamGraph和JobGenerator容错安全性注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们从安全角度来讲解Spark Streaming,由于Spark Streaming会不断的接收数据、不断的产生job、不断的提交job。所以数据的安全性原创 2016-06-15 21:34:29 · 1565 阅读 · 0 评论 -
Spark 定制版:014~Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密
本讲内容:a. updateStateByKey解密 b. mapWithState解密注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们从Spark Streaming源码解读Driver容错安全性:那么什么是Driver容错安全性呢?a. 从数据层面:ReceivedBlockTracker为整个Spark Streaming应用原创 2016-06-19 15:35:14 · 2373 阅读 · 0 评论 -
Spark 定制版:015~Spark Streaming源码解读之No Receivers彻底思考
本讲内容:a. Direct Acess b. Kafka注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们讲Spark Streaming中一个非常重要的内容:State状态管理a. 为了说明state状态管理,拿两个非常具体非常有价值的方法updateStateByKey和mapWithState这两个方法来说明sparkstre原创 2016-06-20 21:52:56 · 2406 阅读 · 0 评论 -
Spark 定制版:017~Spark Streaming资源动态申请和动态控制消费速率原理剖析
本讲内容:a. Spark Streaming资源动态分配 b. Spark Streaming动态控制消费速率注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解上节回顾上一讲中,我们要给大家解密park Streaming中数据清理的流程,主要从背景、Spark Streaming数据是如何清理的、源码解析三个方面给大家逐一展开背景Spark Stream原创 2016-06-22 21:29:37 · 3559 阅读 · 0 评论 -
Spark 定制版:018~Spark Streaming中空RDD处理及流处理程序优雅的停止
本讲内容:a. Spark Streaming中的空RDD处理 b. Spark Streaming程序的停止注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解上节回顾上一讲中,我们要给大家解密park Streaming两个比较高级的特性,资源动态申请和动态控制消费速率原理默认情况下,Spark是先分配好资源,然后在进行计算,也就是粗粒度的资源分配原创 2016-06-28 21:52:27 · 1416 阅读 · 0 评论 -
Spark 定制版:001~Spark Streaming(一)
Spark 定制版~Spark Streaming(一)本讲内容:a. SparkStreaming在线另类实验 b. 瞬间理解SparkStreaming的本质源码定制为什么从Spark Streaming切入?a. Spark 最初只有Spark Core,通过逐步的发展,扩展出了Spark SQL、Spark Streaming、Spark MLlib(machine learning)原创 2016-05-05 00:49:44 · 9137 阅读 · 2 评论