- 博客(108)
- 收藏
- 关注
原创 kafka源码分析之kafkacluster的管理-KafkaController
kafka-cluster源码 kafka-leader选举源码 kafka 源码
2016-07-27 10:31:24 4466
原创 spark中的动态executor分配
spark源代码分析,spark中动态executor的配置项,spark动态executor的分配源代码分析
2016-02-03 18:34:44 19940 2
原创 spark源码action系列-saveAsHadoopDataset
spark源码分析,spark中分析结果存储hadoop的基础实现函数,spark saveAsTextFile底层实现, spark saveAsHadoopFile底层实现.
2016-01-29 15:33:03 3194
原创 spark源码action系列-reduce
spark源码分析,spark reduce action的实现流程,spark reduce与hadoop的mapreduce中reduce的区别.
2016-01-29 15:29:07 1816
原创 spark源码action系列-foreach与foreachPartition
spark源码分析,spark action中的foreach与foreachPartition的区别,spark foreach的代码实现流程,spark foreachPartition的代码实现流程.
2016-01-29 15:18:27 17451
原创 spark源码action系列-开头部分
这里主要说明下spark中,具体执行任务时,执行的函数入口与spark driver如何得到每个task的返回结果.
2016-01-29 13:10:31 1024
spark transform系列__mapPartitions
mapPartitions/mapPartitionsWithIndex这 两个transform中:mapPartitions与map的区别是map中是对每个partition中的iterator执行map操作,对 map过程中的每一条record进行传入的function的处理,而mapPartitions是把partition中整个iterator传给 function进行处理.如果是...
2016-01-29 09:24:40 286
spark transform系列__sample
Sample是对rdd中的数据集进行采样,并生成一个新的RDD,这个新的RDD只有原来RDD的部分数据,这个保留的数据集大小由fraction来进行控制,这个分析中,不分析sample的两个算法的具体实现,如果后期有必要时,可以分析这两个算法的具体的实现.首先,先看看sample的实现代码:def sample( withReplacement: Boolean, fract...
2016-01-29 09:22:41 206
spark transform系列__reduceByKey
reduceByKey 通过PairRDDFunctions进行的实现,reduceByKey的操作是把两个V类型的值进行处理,并最终返回的还是一个V类型的结果(V类型 就是value的类型).针对一个reduceByKey的操作,需要执行shuffle的操作,也就是说如果包含有reduceByKey时,会生成两 个执行的stage,第一个stage会根据shuffle的partition与分...
2016-01-29 09:21:31 134
spark transform系列__sortByKey
该 函数主要功能:通过指定的排序规则与进行排序操作的分区个数,对当前的RDD中的数据集按KEY进行排序,并生成一个SHUFFLEdrdd的实例,这个 过程会执行shuffle操作,在执行排序操作前,sortBy操作会执行一次到两次的数据取样的操作,取出RDD中每个PARTITION的部分数据, 并根据进行分区的partition的个数,按key的compare大小把某个范围内的key放到一个指...
2016-01-29 09:19:09 334
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人