Map-Reduce
文章平均质量分 80
iteye_17635
这个作者很懒,什么都没留下…
展开
-
通过Map-Reduce实现Join系列之一
本系列的开篇在提到使用Map-Reduce实现Join之前,先来看看目前在数据库中应用比较广泛和流行的集中Join算法。它们分别是嵌套循环Join(Nested Loops Join)、排序合并Join(Sort-Merge Join)和哈希Join(Hash Join)。[b]1.嵌套循环Join[/b][code="java"]for R中的每一条记录r do for S...原创 2012-12-15 20:18:00 · 260 阅读 · 0 评论 -
通过Map-Reduce实现Join系列之二
在本系列的第一篇中,介绍了几种在数据库应用中常见的Join算法,本文将会介绍两种使用Map-Reduce实现对两个数据集合进行Join的算法,其中的一种会用到第一篇中提到的哈希Join算法。这里将这两种方法分别命名为Map-Reduce Join和Map-Only Join。[b]1. Map-Reduce Join[/b]这种Join方法,需要在hadoop上执行一个完整的Map-Red...原创 2012-12-15 20:22:24 · 200 阅读 · 0 评论 -
通过Map-Reduce实现Join系列之三
在这个系列的前两篇中,介绍了基本的Join算法以及在Hadoop环境中,如何利用Map-Reduce过程来完成Join。而前面的介绍都是基于两个集合的Join,本文将会介绍利用Map-Reduce来完成2个以上文件的Join的相关算法(Multi-way join algorithms)。基本的思路与第二篇文章中介绍的Map-Reduce Join类似,根据将这个算法扩展到多个文件的方式,可以分为...原创 2012-12-15 20:26:17 · 207 阅读 · 0 评论 -
通过Map-Reduce实现Join系列之四
在本系列的前面几篇文章中,主要介绍了利用Map-Reduce任务来完成两个或者多个文件的Join操作的一些算法和思路。基于的前提是对这些文件在相同的列上进行Join,本文将要讨论如何通过Map-Reduce任务来完成对多个文件在不同列上进行Join。由于需要在不同的列上进行Join,涉及到的文件个数至少会是三个,比如有三个文件T1(A,B)、T2(B,C)、T3(C,D),T1和T2基于B列进行J...原创 2012-12-15 20:32:09 · 201 阅读 · 0 评论