- 博客(5)
- 收藏
- 关注
原创 hadoop之combiners编程
大数据的世界里,我们知道每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数量。combiner最基本是实现本地key的归并,combiner具有类似本地的reducer功能。 注意:combiner的输出就是reducer的输入,如果combiner是可插拔的,添加combiner决不能改变最终的计算结果,所以com
2015-11-26 15:16:19 287
原创 hadoop之partitioner编程
在写这篇文章之前,笔者已经大致的描述过关于hadoop的mapreduce的处理数据的过程。在这边,笔者主要来介绍一下在map阶段和reduce阶段之间进行的一些数据处理。在map读取并处理完数据后,会把数据发送到partitioner,由partitioner来决定每一个键值对送往那个reduce节点。默认使用HashPartitioner,其核心方法是getPartition(),具体代码
2015-11-26 14:44:38 290
原创 关于数据结构三种简单的排序总结
大家都知道,对于数据结构有三种简单的排序:冒泡排序,选择排序和插入排序,说他们简单是因为他们在排序的速度相对较慢,而且排序的算法也比较简单,更适用于数据量小的文件排序中。下面我们就分别来分析一下这三种排序。 首先来说说冒泡排序:它是这三种排序中最简单也是最为人熟悉的一种排序,它的思想是用每一次循环来固定一个值的位置。很显然,当我们有N个值的时候,我们就需要比较N-1趟,在每一趟的确定值中
2015-11-09 23:37:33 1377
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人