自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

隔壁老杨的专栏

关注大数据,hadoop,hbase,spark,姑娘等相关话题

原创 yarn中的cgroup调度

yarn中cgroup的调度

2016-09-22 12:00:38

阅读数 3383

评论数 0

原创 kafka源码分析之consumer的源码

kafka源码分析之kafka-consumer接收log消息的源码

2016-07-27 10:44:33

阅读数 6702

评论数 5

原创 kafka源码分析之producer

kafka源码分析之kafka producer发送数据源码分析

2016-07-27 10:39:52

阅读数 14919

评论数 0

原创 kafka源码分析之kafkaserver的健康状态管理

kafka server的健康状态管理源码分析

2016-07-27 10:37:23

阅读数 2497

评论数 0

原创 kafka源码分析之kafka的consumer的负载均衡管理

kafka中相同的group下多个consumer的负载均衡处理源码分析

2016-07-27 10:35:38

阅读数 13149

评论数 0

原创 kafka源码分析之kafkacluster的管理-KafkaController

kafka-cluster源码 kafka-leader选举源码 kafka 源码

2016-07-27 10:31:24

阅读数 3467

评论数 0

原创 kafka源码分析之副本管理-ReplicaManager

kafka源码分析 kafka日志的副本管理 kafka副本同步

2016-07-27 10:25:52

阅读数 3785

评论数 0

原创 kafka源码之日志管理-LogManager

kafka源码分析 kafka的LogManager源码

2016-07-27 10:20:59

阅读数 4583

评论数 0

原创 kafka源码分析之kafkaApis

kafka源码分析 kafkaApis的处理源码

2016-07-27 10:18:01

阅读数 2177

评论数 0

原创 kafka源码分析之kafka启动-SocketServer

kafka socketserver的处理流程源码, kafka源码

2016-07-27 10:14:39

阅读数 4476

评论数 2

原创 kafka源码之kafkaserver的启动

kafka 0.9.0源码 kafka源码分析 kafka server启动分析

2016-07-27 10:11:36

阅读数 6287

评论数 0

原创 spark中的广播变量broadcast

本文是对spark中的广播变量broadcast的源码流程进行说明.

2016-02-19 08:54:50

阅读数 32578

评论数 1

原创 spark的内存分配管理

这篇文章主要说明spark的两种内存分配管理的源代码,分析了1.6默认的统一内存管理与老版本中的静态内存管理的实现

2016-02-18 14:38:13

阅读数 10207

评论数 0

原创 spark中的动态executor分配

spark源代码分析,spark中动态executor的配置项,spark动态executor的分配源代码分析

2016-02-03 18:34:44

阅读数 15884

评论数 2

原创 spark的task调度器(FAIR公平调度算法)

spark源码分析,spark的任务调度之fair公平调度算法代码实现分析.

2016-02-01 16:19:49

阅读数 2920

评论数 0

原创 spark的task调度器(FIFO先进先出调度算法)

spark源码分析,spark的FIFO(先进先出调度器)的实现代码分析.

2016-02-01 16:17:00

阅读数 1969

评论数 0

原创 spark的task调度器(一)

spark源码分析,spark任务执行时对task的调度算法分析.

2016-02-01 16:13:47

阅读数 1903

评论数 0

原创 spark源码action系列-saveAsHadoopDataset

spark源码分析,spark中分析结果存储hadoop的基础实现函数,spark saveAsTextFile底层实现, spark saveAsHadoopFile底层实现.

2016-01-29 15:33:03

阅读数 2829

评论数 0

原创 spark源码action系列-reduce

spark源码分析,spark reduce action的实现流程,spark reduce与hadoop的mapreduce中reduce的区别.

2016-01-29 15:29:07

阅读数 1501

评论数 0

原创 spark源码action系列-foreach与foreachPartition

spark源码分析,spark action中的foreach与foreachPartition的区别,spark foreach的代码实现流程,spark foreachPartition的代码实现流程.

2016-01-29 15:18:27

阅读数 16271

评论数 0

原创 spark源码action系列-take

spark源码中关于top n的实现,spark action 中的take的实现代码.

2016-01-29 14:17:19

阅读数 494

评论数 0

原创 spark源码action系列-count

spark源码, spark action count函数功能分析.

2016-01-29 13:48:58

阅读数 698

评论数 0

原创 spark源码action系列-collect

spark源码 RDD collect的函数说明

2016-01-29 13:40:01

阅读数 1016

评论数 0

原创 spark源码action系列-开头部分

这里主要说明下spark中,具体执行任务时,执行的函数入口与spark driver如何得到每个task的返回结果.

2016-01-29 13:10:31

阅读数 900

评论数 0

spark transform系列__mapPartitions

mapPartitions/mapPartitionsWithIndex 这 两个transform中:mapPartitions与map的区别是map中是对每个partition中的iterator执行map操作,对 map过程中的每一条record进行传入的function的处理,而map...

2016-01-29 09:24:40

阅读数 60

评论数 0

spark transform系列__sample

Sample是对rdd中的数据集进行采样,并生成一个新的RDD,这个新的RDD只有原来RDD的部分数据,这个保留的数据集大小由fraction来进行控制,这个分析中,不分析sample的两个算法的具体实现,如果后期有必要时,可以分析这两个算法的具体的实现. 首先,先看看sample的实现代码:...

2016-01-29 09:22:41

阅读数 76

评论数 0

spark transform系列__reduceByKey

reduceByKey 通过PairRDDFunctions进行的实现,reduceByKey的操作是把两个V类型的值进行处理,并最终返回的还是一个V类型的结果(V类型 就是value的类型).针对一个reduceByKey的操作,需要执行shuffle的操作,也就是说如果包含有reduceB...

2016-01-29 09:21:31

阅读数 40

评论数 0

spark transform系列__sortByKey

该 函数主要功能:通过指定的排序规则与进行排序操作的分区个数,对当前的RDD中的数据集按KEY进行排序,并生成一个SHUFFLEdrdd的实例,这个 过程会执行shuffle操作,在执行排序操作前,sortBy操作会执行一次到两次的数据取样的操作,取出RDD中每个PARTITION的部分数据,...

2016-01-29 09:19:09

阅读数 39

评论数 0

spark transform系列__groupByKey

这个操作的作用根据相同的key的所有的value存储到一个集合中的一个玩意. def groupByKey(): RDD[(K, Iterable[V])] = self.withScope {  groupByKey(defaultPartitioner(self))} 在 做groupB...

2016-01-29 09:15:58

阅读数 43

评论数 0

原创 spark transform系列__Coalesce

Coalesce/repartition coalesce 这个操作是把当前的RDD中的partition根据一个新的传入的parition的个数,对partition中的结果集进行重新组合成一个新的结果集的函数. 这个函数需要传入两个参数: 参数1:需要重新进行分区的分区个数. 参数2...

2016-01-28 18:17:34

阅读数 847

评论数 0

原创 spark transform系列__Cartesian

Cartesian 这个操作返回两个RDD的笛卡尔集.如果两个RDD中某一个RDD的结果集为空集时,这个结果集也是一个空集. 这个操作不会执行shuffle的操作. def cartesian[U: ClassTag](other: RDD[U]): RDD[(T, U)] = withSc...

2016-01-28 18:15:50

阅读数 1315

评论数 0

原创 spark transform系列__join

Join Join包含有join,fullOuterJoin,leftOuterJoin,rightOuterJoin四种实现, 下面先根据join的实现流程进行分析,再对join分析的结果的基础上,最后根据后面三种join的实现,说明下这几种JOIN的差别所在. Join的函数中,需要一个...

2016-01-28 18:11:52

阅读数 1663

评论数 0

原创 spark transform系列__cogroup

Cogroup cogroup的函数实现: 这个实现根据两个要进行合并的两个RDD操作,生成一个CoGroupedRDD的实例,这个RDD的返回结果是把相同的key中两个RDD分别进行合并操作,最后返回的RDD的value是一个Pair的实例,这个实例包含两个Iterable的值,第一个值表示的是...

2016-01-28 18:08:49

阅读数 1683

评论数 0

原创 spark transform系列__aggregateByKey

aggregateByKey 这个函数可用于完成对groupByKey,reduceByKey的相同的功能,用于对rdd中相同的key的值的聚合操作,主要用于返回一个指定的类型U的RDD的transform,在这个函数中,需要传入三个参数: 参数1:用于在每个分区中,对key值第一次读取V类型的值...

2016-01-28 18:07:29

阅读数 3026

评论数 0

原创 spark transform系列__distinct

Distinct的操作其实是把原RDD进行MAP操作,根据原来的KEY-VALUE生成为KEY,value使用null来替换,并对新生成的RDD执行reduceByKey的操作,这个reduceByKey的操作中,传入的x,y都是null,这个地方执行reduceByKey的函数(下面的红色部分,...

2016-01-28 18:05:07

阅读数 6971

评论数 0

原创 spark transform系列__union

Union Union的transform主要是把两个RDD合并成一个RDD的动作,在union的操作中,如果要进行合并的两个rdd的partitioner的算子实例是同一个实例时,表示这两个rdd有相同的分区方法,合并后的RDD为PartitionerAwareUnionRDD实例.否则生成U...

2016-01-28 18:01:00

阅读数 2034

评论数 0

原创 spark transform系列__intersection

这个transform返回的是进行操作的两个RDD中,key-value都相同的所有的数据集的新的RDD.说白了就是把两个RDD中数据完全相同的数据进行保留,不相同的数据直接丢弃掉.这个操作会执行shuffle操作.   实现代码:   def intersection(other: RD...

2016-01-28 17:58:09

阅读数 1779

评论数 0

原创 spark transform系列__mapPartitions

mapPartitions/mapPartitionsWithIndex 这两个transform中:mapPartitions与map的区别是map中是对每个partition中的iterator执行map操作,对map过程中的每一条record进行传入的function的处理,而mapPar...

2016-01-28 17:55:16

阅读数 934

评论数 0

原创 spark transform系列__sample

Sample是对rdd中的数据集进行采样,并生成一个新的RDD,这个新的RDD只有原来RDD的部分数据,这个保留的数据集大小由fraction来进行控制,这个分析中,不分析sample的两个算法的具体实现,如果后期有必要时,可以分析这两个算法的具体的实现. 首先,先看看sample的实现代码: ...

2016-01-28 17:45:27

阅读数 4467

评论数 1

原创 spark transform系列__reduceByKey

reduceByKey通过PairRDDFunctions进行的实现,reduceByKey的操作是把两个V类型的值进行处理,并最终返回的还是一个V类型的结果(V类型就是value的类型).针对一个reduceByKey的操作,需要执行shuffle的操作,也就是说如果包含有reduceByKey...

2016-01-28 17:22:25

阅读数 1448

评论数 0

提示
确定要删除当前文章?
取消 删除