MapReduce框架当javaBean作为key时自定义分组规则一定要将排序字段作为分组的字段否则分组可能会失效。

最新推荐文章于 2022-08-24 16:28:48 发布

aolixingo

最新推荐文章于 2022-08-24 16:28:48 发布

阅读量170

点赞数 1

分类专栏：非笔记文章标签： hadoop mapreduce big data java

本文链接：https://blog.csdn.net/ao_li_ao_/article/details/120253492

版权

非笔记专栏收录该内容

3 篇文章 1 订阅

订阅专栏

以手机流量统计案例举例分析：

原始文件格式：

手机号（phone）：上行流量（upFlow）下行流量（downFlow）总流量（sumFlow）

13865424521 100 100 200

13548796531 200 250 450

15387456365 200 300 500

18562465881 100 350 450

14265896452 100 350 450

13865424521 120 500 620

需求：

要求将相同的手机号的数据分为一组将相同手机号的三个流量相加如上述数据的第一行数据和最后一行数据属于同一手机号故应该将其合并输出

如下：

13865424521 220 600 820

自定义内容说明：

自定义javaBean：将上述文件的phone upFlow downFlow封装

自定义排序规则：首先按照总流量升序排序如果总流量一样就按照上行流量升序排序

自定义分组规则：手机号一样分为一个组

最终输出的数据：

手机号（phone）：上行流量（upFlow）下行流量（downFlow）总流量（sumFlow）

13865424521 100 100 200

18562465881 100 350 450

14265896452 100 350 450

13548796531 200 250 450

15387456365 200 300 500

13865424521 120 500 620

由输出的数据可见第一行和最后一行的相同手机号并没有分为一组而是各自调用了一次reduce方法故它们的流量没有加在一起故自定义分组失效

失效过程演示：

首先明确一点在MapReduce框架中作为key的一定要实现排序才可以（至于为什么一定要有排序能力才行见本文末尾补充内容），否则程序无法进行。本文中的key是自己定义的javaBean，那么就一定会实现WritableComparable接口重写里面的comparaTo方法实现自定义排序，再次重申如果javaBean没有实现自定义排序MapReduce程序是无法进行下去的。

redeceTask主动拉取自己分区的数据（如果有分区的话），此时拉到的数据是有序的（按照自定义的排序方法排序的）。数据如下：

<{13865424521,100,100,200} , NullWritable> <{18562465881,100,350,450} , NullWritable> <{14265896452,100,350,450} , NullWritable>

<{13548796531,200,250,450} , NullWritable> <{15387456365,200,300,500} , NullWritable> <{13865424521,120,500,620} , NullWritable>

最关键的点来了 reduceTask在进行分组过程是这样的它是通过判断当前的数据和上一个数据是否是同一类数据如果是那么它俩就放在一个组如果不是那么就认为前面的是一组的数据，然后会一起去调用一个redece方法。那么它是如何判断两个数据是否是同一类数据呢，这里分两种情况

1）没有自定义分组规则：前面已经说了一定实现了排序规则那么排序规则就会兼职分组规则也就是说comparatTo方法返回0就代表这两个javaBean是同一组的。

2）有自定义分组规则：那么就按照自定义的规则去判断是否是同一组的。

那么问题就来了例如上面提到的数据第一条和最后一条根据自定义的分组规则应该是一组的但是由于排序的缘故是他两被其他数据隔开了，那第一条数据和第二条数据不满足同一组规则系统就将第一条单独作为一组去调用reduce方法了而最后一条数据和它的前一条也不满足同一组规则所有最后一条单独调用了一个reduce方法。

总结:

redeceTask拉取到的有序数据的顺序是按照自定义排序得来的只有连在一起并且满足分组规则的数据才会进入同一组

所有自定义分组字段要与排序字段保持一直。

补充：

1. 为什么作为key一定要有排序能力

因为根据reduceTask的分组规则要求reduceTask拉取到的数据必须是有序的如果拉取到的数据不是有序的那么reduceTask就要进行全局的寻找和它同一组的会导致效率极低但是如果排了序只需要看看后面一个是否同组就可以了

aolixingo

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReduce框架当javaBean作为key时自定义分组规则一定要将排序字段作为分组的字段否则分组可能会失效。

以手机流量统计案例举例分析：原始文件格式：手机号（phone）：上行流量（upFlow）下行流量（downFlow）总流量（sumFlow）13865424521 100 100 20013548796531 200 ...
复制链接

扫一扫