MapReduce分区和reduceTask的数量

最新推荐文章于 2024-07-11 07:15:00 发布

黄道婆

最新推荐文章于 2024-07-11 07:15:00 发布

阅读量1.3k

点赞数

分类专栏： bigdata 文章标签： mapreduce

本文链接：https://blog.csdn.net/elizabethxxy/article/details/108748086

版权

MapReduce分区和reduceTask的数量

1.MapReduce分区：相同key的数据发送到同一个reduce里面去。
mapTask处理的是文件切片filesplit。
注意：block的概念是在hdfs当中的，mapreduce当中，每一个mapTask处理的数据都是叫做一个文件切片。
暂时可以简单地认为，一个文件切片就是对应一个block块。还可以简单地认为，有多少个block块，就要启动多少个mapTask。

2.分区规则：
HashPartitioner的getPartition方法返回值是int类型的，每条数据都要进来计算一下数据的分区，然后给每条数据打上一个逻辑标识，计算每一条数据要去哪一个reduceTask里去。
逻辑编号：(key.hashCode() & Integer.MAX_VALUE) % numberReduceTasks
因为key.hashCode()有可能是负数，所以要&Integer.MAX_VALUE，这样就永远是一个正整数。&按位与。
numberReduceTasks指多少个reduceTask。

3.自定义分区的一个例子

需求：将开奖结果分为>15的一个文件，<15的一个文件。
开奖结果在partition.csv文件每一行数据的第六个字段

一个reduceTask对应产生一个文件。
k1: LongWritable, v1: Text
k2: Text, v2: NullWritable，即null
核心代码：自定义分区
String[] arrays = k2.toString().split("\t");//因为数据是用\t进行切割的，所以用tab键做好格式
if(arrays[5] >= 15){return

最低0.47元/天解锁文章

黄道婆

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MapReduce分区和reduceTask的数量

MapReduce分区和reduceTask的数量1.MapReduce分区：相同key的数据发送到同一个reduce里面去。mapTask处理的是文件切片filesplit。注意：block的概念是在hdfs当中的，mapreduce当中，每一个mapTask处理的数据都是叫做一个文件切片。暂时可以简单地认为，一个文件切片就是对应一个block块。还可以简单地认为，有多少个block块，就要启动多少个mapTask。2.分区规则：HashPartitioner的getPartition方法
复制链接

扫一扫