- 博客(3)
- 收藏
- 关注
转载 MapReduce中的二次排序
在MapReduce操作时,我们知道传递的会按照key的大小进行排序,最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上,对value也进行排序。这种需求就是二次排序。 我们先看一下Mapper任务的数据处理过程吧,见下图。 在图中,数据处理分为四个阶段: (1)Mapper任务会接收输入分片,然后不断的调用map函数,对记录进行处理。处理完毕后,转换为
2016-03-31 12:54:37 858
转载 Hadoop中VIntWritable编码方式解析
最近因为实验室的云计算项目,开始学习Hadoop,有时间就记录一下自己在学习过程中的一些小收获吧。 《Hadoop权威指南》在序列化这一节有个例子程序,叫做TextPair,代码略长,就不贴上来了,它implements了WritableComparable,将两个Text对象打包到一起。TextPair以静态内部类的形式实现了WritableComparator,这样,不从数据
2016-03-29 14:47:41 1640
转载 MapReduce的分区 与 分组
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://computerdragon.blog.51cto.com/6235984/1287721 问题描述: 输入文件格式如下: name1 2 name3 4 name1 6 name1 1 name3 3
2016-03-29 11:45:10 4433
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人