2016年03月_qingen123

05月 03月

转载 MapReduce中的二次排序

在MapReduce操作时，我们知道传递的会按照key的大小进行排序，最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上，对value也进行排序。这种需求就是二次排序。我们先看一下Mapper任务的数据处理过程吧，见下图。在图中，数据处理分为四个阶段：（1）Mapper任务会接收输入分片，然后不断的调用map函数，对记录进行处理。处理完毕后，转换为

2016-03-31 12:54:37 858

转载 Hadoop中VIntWritable编码方式解析

最近因为实验室的云计算项目，开始学习Hadoop，有时间就记录一下自己在学习过程中的一些小收获吧。《Hadoop权威指南》在序列化这一节有个例子程序，叫做TextPair，代码略长，就不贴上来了，它implements了WritableComparable，将两个Text对象打包到一起。TextPair以静态内部类的形式实现了WritableComparator，这样，不从数据

2016-03-29 14:47:41 1640

转载 MapReduce的分区与分组

原创作品，允许转载，转载时请务必以超链接形式标明文章原始出处、作者信息和本声明。否则将追究法律责任。http://computerdragon.blog.51cto.com/6235984/1287721 问题描述：输入文件格式如下： name1 2 name3 4 name1 6 name1 1 name3 3

2016-03-29 11:45:10 4433

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 MapReduce中的二次排序

转载 Hadoop中VIntWritable编码方式解析

转载 MapReduce的分区 与 分组

空空如也

空空如也

转载 MapReduce的分区与分组