MapReduce
文章平均质量分 90
superxgl
这个作者很懒,什么都没留下…
展开
-
Hadoop Map/Reduce教程
目的这篇教程从用户的角度出发,全面地介绍了Hadoop Map/Reduce框架的各个方面。先决条件请先确认Hadoop被正确安装、配置和正常运行中。更多信息见:Hadoop快速入门对初次使用者。Hadoop集群搭建对大规模分布式集群。概述Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在转载 2010-01-11 03:45:00 · 1705 阅读 · 0 评论 -
用Python来写MapReduce的实际应用程序
<br />前几篇介绍了MapReduce环境的搭建,我们来做些更有实际意义的事情吧,用Python来写分布式的程序。这样速度快。便于调试,更有实际意义。<br />个人感觉MapReduce适合于对文本文件的处理及数据挖掘用:<br /> 在每台机器上:<br />su - hadoop<br />wget http://www.python.org/ftp/python/3.0.1/Python-3.0.1.tar.bz2<br />tar jxvf Python-3.0.1.tar.bz2<br转载 2010-08-15 16:40:00 · 960 阅读 · 0 评论 -
hadoop的1TB排序《转》
1、1TB(或1分钟)排序的冠军 作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。 1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1分钟排序所取代,1分钟排序指的是在一分钟内尽可能多的排序。2009年,在一个1406个节点组成的hadoop集群,在59秒里对500GB完成了排序;而在1460个节点的集群,排序1TB数据只花原创 2011-01-06 20:24:00 · 524 阅读 · 0 评论