calvin622-CSDN博客

转载【MapReduce】超大集群的简单数据处理 part7

7 相关工作 很多系统都提供了严格的编程模式，并且通过对编程的严格限制来实现自动的并行计算。例如，一个结合函数可以在一个N个元素的所有前缀上进行计算，并且使用并发前缀计算，会在在N个并发节点上会耗费log N的时间[6，9，13]。MapReduce是这些模式下的，一个我们基于超大系统的现实经验的一个简化和精炼。并且，我们还提供了基于上千台处理器的容错实现。而大部分并发处理系统都只在小规模的尺度上实现，并且机器的容错还是程序员来操心的。 Bulk Synchronous

2010-08-07 16:48:00 1089

转载【MapReduce】超大集群的简单数据处理 part6

6 经验 我们在2003年1月写了第一个版本的MapReduce函数库，并且在2003年8月作了显著的增强，包括了本地优化，worker机器之间的动态负载均衡等等。自那以后，MapReduce函数库就广泛用于我们日常处理的问题。它现在在Google内部各个领域内广泛应用，包括： 。大尺度的计算机学习问题。 。Google News和Froogle产品的集群问题。 。从公众查询产品（比如Google的Zeitgeist）的报告中抽取数据。<b

2010-08-07 16:47:00 631

转载【MapReduce】超大集群的简单数据处理 part5

5 性能 在本节，我们用在一个大型集群上运行的两个计算来衡量MapReduce的性能。一个计算用来在一个大概1TB的数据中查找特定的匹配串。另一个计算排序大概1TB的数据。 这两个程序代表了大量的用MapReduce实现的真实的程序的主要类型-一类是对数据进行洗牌，另一类是从海量数据集中抽取少部分的关心的数据。5.1 集群配置 所有这些程序都是运行在一个大约有1800台机器的集群上。每台机器配置2个2G Intel Xeon支持超线程的处理器，4GB

2010-08-07 16:45:00 663

转载【MapReduce】超大集群的简单数据处理 part4

4 技巧虽然简单写map和reduce函数实现基本功能就已经对大部分需要都足够了，我们还是开发了一些有用的扩展，这些在本节详细描述。 4.1 分区函数MapReduce的使用者通过指定（R）来给出reduce 任务/输出文件的数量。他们处理的数据在这些任务上通过对中间结果key得分区函数来进行分区。缺省的分区函数时使用hash函数（例如hash(key)mod R）。这一般就可以得到分散均匀的分区。不过，在某些情况下，对key用其他的函数进行分区可能更有用。比如，某些情况下key是URL，那么我们希望所有

2010-08-07 16:39:00 798

转载【MapReduce】超大集群的简单数据处理 part3

3.2 Master的数据结构 master需要保存一定的数据结构。对于每一个map和reduce任务来说，都需要保存它的状态（idle，in-progress或者completed），并且识别不同的worker机器（对于非idel的任务状态）。 master是一个由map任务产生的中间区域文件位置信息到reduce任务的一个管道。因此，对于每一个完成得map任务，master保存下来这个map任务产生的R中间区域文件信息的位置和大小。对于这个位置和大小信息是

2010-08-07 16:38:00 808

转载【MapReduce】超大集群的简单数据处理 part2

3 实现MapReduce接口可以有很多种不同的实现。应当根据不同的环境选择不同的实现。比如，一个实现可以适用于小型的共享内存的机器，另一个实现可能是基于大型NUMA多处理器系统，还可能有为大规模计算机集群的实现。本届描述了Google广泛使用的计算环境：用交换机网络[4]连接的，由普通PC构成的超大集群。在我们的环境里：（1）每个节点通常是双x86处理器，运行Linux,每台机器2-4GB内存。（2）使用的网络设备都是常用的。一般在节点上使用的是100M/或者千M网络，一般情况下都用

2010-08-07 16:35:00 586

转载【MapReduce】超大集群的简单数据处理 part1

收件人： 发件人：崮山路上走9遍 抄送： 日期： 2005-08-05 关于： MapReduce: Simplified Data Processing on Large Clusters Jeffrey Dean Sanjay Ghemawat jeff@google.com , sanjay@google.com Google , Inc.摘要 MapReduce是一个编程模式，它是与处理/产生海量数

2010-08-07 16:32:00 699

calvin622的专栏

转载【MapReduce】超大集群的简单数据处理 part7

转载【MapReduce】超大集群的简单数据处理 part6

转载【MapReduce】超大集群的简单数据处理 part5

转载【MapReduce】超大集群的简单数据处理 part4

转载【MapReduce】超大集群的简单数据处理 part3

转载【MapReduce】超大集群的简单数据处理 part2

转载【MapReduce】超大集群的简单数据处理 part1

转载免费的晚餐--Google技术学习

原创工作第一周

原创孙鑫Java视频教程（全12CD）

空空如也

空空如也