自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

吾心光明

我的梦

  • 博客(5)
  • 收藏
  • 关注

原创 Spark数据倾斜解决原理和方法总论

本博文主要包含以下内容:1、Spark数据倾斜解决的原理方法总论 2、Spark数据倾斜解决方法总论一:均衡数据是我们的目标,或者说我们要解决数据倾斜的发力点。一般说shuffle是产生数据倾斜的主要原因,为什么shuffle产生数据倾斜主要是因为网络通信,如果计算之前通过ETL(ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Busine

2016-09-10 12:41:05 3686

原创 Spark系列之数据倾斜:数据倾斜之痛

本博文的主要内容包括:Spark性能真正的杀手数据倾斜多么痛1、关于性能调优首先谈数据倾斜,为什么? (1)因为如果数据倾斜,其他所有的调优都是笑话,因为数据倾斜主要导致程序跑步起来或者运行状态不可用。 (2)数据倾斜最能代表spark水平的地方,spark是分布式的,如果理解数据倾斜说明你对spark运行机制了如指掌。2、数据倾斜两大直接致命性的后果: (1)、OOM,

2016-09-10 08:30:27 2046

原创 Spark Streaming生成RDD并执行Spark Job源码内幕解密

本博文主要包含以下内容:DStream产生RDD的案例实战演示DStream作为RDD模板的原理机制常见DStream生产RDD源码解密这种常见的DStream包含三种类型,一种是输入的级别的InputDStream,第二种transformationDStream,第三种输出级别的ForeachDStream。博文主要代码如下:object NetworkWordCount { def

2016-09-08 08:10:09 1443

原创 Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

本博文内容主要是 :DStream与RDD关系彻底研究Streaming中RDD的生成彻底研究 问题的提出 :   1、RDD是依靠谁产生的? 如何产生RDD?  2、执行时是否与Spark Core上的RDD执行有什么不同的  3、 运行之后对RDD要怎么处理    为什么有第三点 : 是因为Spark Streaming 中会随着相关触发条件,窗口Window滑动的时候都会不断的产生RDD

2016-09-03 10:06:29 1902

原创 Spark Streaming源码解读之JobScheduler内幕实现和深度思考

本博文内容主要包括:1、JobScheduler内幕实现 2、JobScheduler深度思考一:JobScheduler内幕实现:JobScheduler的地位非常的重要,所有的关键都在JobScheduler,它的重要性就相当于是Spark Core当中的DAGScheduler,因此,我们要花重点在JobScheduler上面。我们在进行sparkstreaming开发的时候,会对Dstre

2016-09-01 11:06:31 1122

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除