2011年07月_laigood

这章提供一个设计MapReduce算法的指导。特别地，对于常见问题我们展示了很多设计模式来解决。总的来说，它们是： “In-mapper combining”（map内合并），combiner函数被移到了mapper里面，mapper通过多个输入记录聚集部分结果，然后只有在局部聚

2011-07-23 10:21:40 1588

3.5相关连接（RELATIONAL JOINS） Hadoop的一个流行应用领域是数据仓库。在一个企业级的环境中，一个数据仓库作为大量数据的存储地点，存储着从销售交易到商品清单几乎所有的信息。一般来说这些数据都是相关的，但是随着数据的日益增长，数据仓库被用来像存储无结构数据那样

2011-07-23 10:01:15 1644 1

3.4 二次排序MapReduce在清洗（shuffle）和排序（sort）阶段用键来为中间键值对排序，如果reducer中的计算依赖于排序顺序的话就非常简单（即之前章节说到的顺序反转模式）。然而，如果除了用键排序之外，我们也需要用值来排序呢？Google的MapReduce实现

2011-07-23 09:31:51 2018

3.3计算相对频率让我们在之前讲到的pairs和stripes算法的基础上继续在大型数据集上构建重现矩阵M。回忆在这个大的n×n矩阵中华，当n=|V|（词典大小），元素mij包含单词wi与wj在具体语境下共同出现的次数。无约束的计数的缺点是它没有考虑到实际上有些词会比其它词更加

2011-07-23 09:23:19 2263 6

3.2 PAIRS（对）和STRIPES（条纹）在MapReduce程序中同步的一个普遍做法是通过构建复杂的键和值这样一个途径来使数据自然地适应执行框架。我们在之前的章节中涉及到这个技术，即把部分总数和计数“打包”成一个复合值（例如pair），依次从mapper传到combin

2011-07-23 08:47:22 2411

3.1本地聚集在数据密集的分布式处理环境中，从产生它们的进程到最后消费它们的进程，中间结果的交互是同步中重要的一个方面。在一个集群环境中，除了令人尴尬的并行问题，其它都必须通过网络传输数据。此外，在Hadoop，中间结果是先写到本地磁盘然后再用网络发送出去。因为网络和磁盘因素相

2011-07-22 22:47:02 3094

大量高效的MapReduce程序因为它简单的编写方法而产生：除了准备输入数据之外，程序员只需要实现mapper和ruducer接口，或加上combiner和partitioner。所有其他方面的执行都透明地控制在由一个节点到上千个节点组成的，数据级别达到GB到PB级别的集群的执行

2011-07-22 21:55:04 1949

云端分布式搜索技术