【MapReduce】超大集群的简单数据处理 part6

最新推荐文章于 2024-09-08 11:45:09 发布

calvin622

最新推荐文章于 2024-09-08 11:45:09 发布

阅读量550

点赞数

分类专栏：云计算文章标签： mapreduce 集群任务 google 负载均衡产品

云计算专栏收录该内容

9 篇文章 1 订阅

订阅专栏

6 经验

我们在2003年1月写了第一个版本的MapReduce函数库，并且在2003年8月作了显著的增强，包括了本地优化，worker机器之间的动态负载均衡等等。自那以后，MapReduce函数库就广泛用于我们日常处理的问题。它现在在Google内部各个领域内广泛应用，包括：

。大尺度的计算机学习问题。

。Google News和Froogle产品的集群问题。

。从公众查询产品（比如Google的Zeitgeist）的报告中抽取数据。

。从web网页作新试验和抽取新的产品（例如，从大量的webpage中的本地查找抽取物理位置信息）。

。大尺度的图型计算。

任务数

平均任务完成时间

使用的机器时间

29423

634秒

79,186天

读取的输入数据

产生的中间数据

写出的输出数据

3,288TB

758TB

193TB

每个job平均worker机器数

每个job平均死掉work数

每个job平均map任务

每个job平均reduce任务

157

1.2

3,351

map唯一实现

reduce的唯一实现

map/reduce的combiner实现

395

296

426

表1：MapReduce2004年8月的执行情况

图四显示了我们的源代码管理系统中，随着时间推移，MapReduce程序的显著增加，从2003年早先时候的0个增长到2004年9月份的差不多900个不同的程序。MapReduce之所以这样成功是因为他能够在不到半小时时间内写出一个简单的能够应用于上千台机器的大规模并发程序，并且极大的提高了开发和原形设计的周期效率。并且，他可以让一个完全没有分布式和/或并行系统经验的程序员，能够很容易的开发处理海量数据的程序。

在每一个任务结束的时候，MapReduce函数库记录使用的计算资源的状态。在表1，我们列出了2004年8月份MapReduce运行的任务所占用的相关资源。

6.1 大尺度的索引

到目前为止，最成功的MapReduce的应用就是重写了Google web 搜索服务所使用到的index系统。索引系统处理蠕虫系统抓回来的超大量的数据，这些数据保存在GFS文件里。普通这些文档的大小是超过了20TB的数据。索引程序是通过一系列的，大概5到10次MapReduce操作来建立索引。通过利用MapReduce（替换掉上一个版本的特别设计的分布处理的索引程序版本）有这样一些好处：