spark
天黑要加班
这个作者很懒,什么都没留下…
展开
-
spark checkpoint机制简述
1、Spark core的checkpoint 1)为什么checkpoint? 分布式计算中难免因为网络,存储等原因出现计算失败的情况,RDD中的lineage信息常用来在task失败后重计算使用,为了防止计算失败后从头开始计算造成的大量开销,RDD会checkpoint计算过程的信息,这样作业失败后从checkpoing点重新计算即可,提高效率。 2)什么时候写checkpoint数据? 当...转载 2019-01-03 19:22:17 · 166 阅读 · 0 评论 -
rdd数据类型
RDD算子分类,大致可以分为两类,即: 1.  Transformation:转换算子,这类转换并不触发提交作业,完成作业中间过程处理。 2.  Action:行动算子,这类算子会触发SparkContext提交Job作业。   一:Transformation:转换算子 1.  map: &转载 2019-01-04 21:50:16 · 2826 阅读 · 0 评论 -
Spark RDD概念学习系列之RDD的5大特点
RDD的5大特点 1)有一个分片列表,就是能被切分,和Hadoop一样,能够切分的数据才能并行计算。 一组分片(partition),即数据集的基本组成单位,对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配...转载 2019-01-03 08:43:45 · 244 阅读 · 0 评论