mapreduce
tiny@ant
coding
展开
-
mapreduce中Partitioner数量与reducetask数量对结果影响
图中可以看出Partition主要作用就是将map的结果发送到相应的reduce。1.现在测试一下第一种情况,Partition数量为1,返回值0,reduce数量为3。设置reduce数量设置Partition数量结果输出3个文件,但只有part-r-00000有内容,其它两个为0字节。2.现在测试一下第二种情况,Partition数量为1,返回值5,reduce数量为3。设置reduce数量设...转载 2018-06-29 21:48:37 · 1119 阅读 · 0 评论 -
mapreduce二次排序(自定义分区、分组)
问题描述:输入文件格式如下:name1 2name3 4name1 6name1 1name3 3name1 0要求输出的文件格式如下:name1 0,1,2,6name3 3,4要求是按照第一列分组,name1与name3也是按照顺序排列的,组内升序排序。思路:常规的输出,无法排序key所对应的多个值的顺序。为了排序组内中的值,需要将key与val...转载 2018-06-29 21:53:37 · 601 阅读 · 0 评论 -
Mapreduce工作原理
MapReduce1.x架构 客户端向JobTracker提交一个作业,JobTracker把这个作业拆分成很多份,然后分配给TaskTracker(任务执行者)去执行,TaskTracker会隔一段时间向JobTracker发送心跳信息,如果JobTracker在一段时间内没有收到TaskTracker的心跳信息,JobTracker会认为TaskTracker死掉了,会把TaskTrack...转载 2018-09-19 23:25:24 · 1044 阅读 · 0 评论