- 博客(3)
- 资源 (5)
- 收藏
- 关注
原创 多数据源的MapReduce作业(三)--map侧过滤后在reduce侧联结
在某些情况下,SemiJoin抽取出来的小表的key集合在内存中仍然存放不下,这时候可以使用BloomFiler以节省空间。BloomFilter最常见的作用是:判断某个元素是否在一个集合里面。它最重要的两个方法是:add() 和contains()。最大的特点是不会存在false negative,即:如果contains()返回false,则该元素一定不在集合中,但会存在一定的true n
2013-04-08 01:13:38 3299 1
原创 多数据源的MapReduce作业(二)--基于Distributed的复制联结
多数据源在reduce侧做join操作,效率不会太高。我们首先会让所有的数据在网络上重排,然后在conbine联结过程中丢弃了大部分的数据。如果我们在mapper侧就去除不必要的数据,联结会更有效率。 map阶段执行联结主要障碍是一个mapper正在处理的记录要能访问到另外表的所有数据,这样就能保证map侧联结可以正常工作。 引入hadoop的DistributedCache。仔细观
2013-04-06 14:49:51 1527
原创 多数据源的MapReduce作业(一)--Reduce侧的联结
场景:实现多表的join操作。select customers.*,orders.* from customersjoin orderson customers.id =orders.id使用DataJoin软件包进行实现联结操作。扩展三个类:1、DataJoinMapperBase2、DataJoinReducerB
2013-04-04 16:02:52 3250
3Dmax实例教程全集下载05
2010-07-19
3Dmax实例教程全集下载04
2010-07-19
3Dmax实例教程全集下载03
2010-07-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人