2013年04月_小于号yyds

12月 05月 04月 03月

原创多数据源的MapReduce作业(三)--map侧过滤后在reduce侧联结

在某些情况下，SemiJoin抽取出来的小表的key集合在内存中仍然存放不下，这时候可以使用BloomFiler以节省空间。BloomFilter最常见的作用是：判断某个元素是否在一个集合里面。它最重要的两个方法是：add() 和contains()。最大的特点是不会存在false negative，即：如果contains()返回false，则该元素一定不在集合中，但会存在一定的true n

2013-04-08 01:13:38 3299 1

原创多数据源的MapReduce作业(二)--基于Distributed的复制联结

多数据源在reduce侧做join操作，效率不会太高。我们首先会让所有的数据在网络上重排，然后在conbine联结过程中丢弃了大部分的数据。如果我们在mapper侧就去除不必要的数据，联结会更有效率。 map阶段执行联结主要障碍是一个mapper正在处理的记录要能访问到另外表的所有数据，这样就能保证map侧联结可以正常工作。引入hadoop的DistributedCache。仔细观

2013-04-06 14:49:51 1527

原创多数据源的MapReduce作业(一)--Reduce侧的联结

场景：实现多表的join操作。select customers.*,orders.* from customersjoin orderson customers.id =orders.id使用DataJoin软件包进行实现联结操作。扩展三个类：1、DataJoinMapperBase2、DataJoinReducerB

2013-04-04 16:02:52 3250