大数据
尼美美
这个作者很懒,什么都没留下…
展开
-
Map Join和Reduce Join的区别以及代码实现
MapReduce Join 对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。 如果数据量比较大,在内存进行连接操会发生OOM。mapreduce join可以用来解决大数据的连接。 1 思路 1.1 reduce join 在map阶段, 把关键字作为key输出,并在value中标记出数据是来自data1还是data2。因为...原创 2018-08-28 11:25:32 · 4712 阅读 · 0 评论 -
Hadoop之MapReduce自定义二次排序
一、概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现的原理以及整个MapReduce框架的处理流程的分析还是有非常大的出入,而且部分分析是没有经过验证的。本文将通过一个实际的Map...原创 2018-08-27 10:39:23 · 317 阅读 · 0 评论