Hadoop赢得1TB排序基准评估第一名

最新推荐文章于 2020-01-09 17:58:49 发布

beijing_josh

最新推荐文章于 2020-01-09 17:58:49 发布

阅读量255

点赞数

文章标签： Hadoop Rack HP Linux 配置管理

强烈祝贺Hadoop赢得1TB排序基准评估第一名。Yadoo的一个集群最近用209秒时间排序1TB的数据 [1]，比上一年的的纪录保持者保持的297秒 [2]快乐将近90秒。1998年Jim Gray创建了排序基准评估的方法，建立100亿条100个字节的纪录，评估对这100亿条纪录完全排序和把纪录写入磁盘的时间。评估是建立在未发布的版本0.18上的。排序所用的源码在这个地址 [3]。评测集群的配置： 910 nodes 4 dual core Xeons @ 2.0ghz per a node 4 SATA disks per a node 8G RAM per a node 1 gigabit ethernet on each node 40 nodes per a rack 8 gigabit ethernet uplinks from each rack to the core Red Hat Enterprise Linux Server Release 5.1 (kernel 2.6.18) Sun Java JDK 1.6.0_05-b13 大家可能非常想知道如何配置Hadoop集群以提高集群处理效率。过些日子我会和大家探讨如何设置Hadoop的集群问题，包括configuration的配置，集群的监控，集群的资源管理等等，和一些来自Facebook Dhruba Borthakur [4]的经验。 [1] http://www.hpl.hp.com/hosted/sortbenchmark/YahooHadoop.pdf [2] http://www.hpl.hp.com/hosted/sortbenchmark/ [3] http://hudson.zones.apache.org/hudson/job/Hadoop-trunk/ws/trunk/src/examples/org/apache/hadoop/examples/terasort/ [4] http://borthakur.com/dhruba_borthakur