2015年01月_Flood_Dragon

11月 10月 09月 07月 06月 01月

转载最大堆的插入/删除/调整/排序操作(图解+程序)（JAVA）

堆有最大堆和最小堆之分，最大堆就是每个节点的值都>=其左右孩子（如果有的话）值的完全二叉树。最小堆便是每个节点的值都设有n个元素的序列{k1,k2,...,kn},当且仅当满足下列关系时,称之为堆。堆的三种基本操作(以下以最大堆为例)： ⑴最大堆的插入由于需要维持完全二叉树的形态，需要先将要插入的结点x放在最底层的最右边，插入后满足完全二叉树

2015-01-22 12:09:48 1026

转载 Map-Reduce的过程解析

一、客户端Map-Reduce的过程首先是由客户端提交一个任务开始的。提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的：public static RunningJob runJob(JobConf job) throws IOException { //首先生成一个JobClient对象 JobClient jc = ne

2015-01-08 15:24:05 712

翻译 MapReduce源码分析之MapTask分析(二)

SpillThread分析为什么需要Spill内存大小总是有效，因此在Mapper在处理过程中，数据持续输出到内存中时，必然需要有机制能将内存中的数据换出，合理的刷出到磁盘上。SpillThread就是用来完成这部分工作。SpillThread的线程处理函数只是做一层封装，当索引表中的kvstart和kvend指向一样的索引位置时，会持续处于等待过程，等待外部通知需要触发s

2015-01-05 11:31:32 791