Hadoop
文章平均质量分 79
npucloud
这个作者很懒,什么都没留下…
展开
-
Hadoop0.21.0源码编译方法
Author:谢本文介绍在Linux下使用eclipse编译Hadoop0.21.0源码原创 2011-05-12 11:16:00 · 2776 阅读 · 1 评论 -
Hadoop性能调优(二)--Map and Reduce tasks 数量
Map and Reduce tasks 数量对性能的影响原创 2011-05-18 15:31:00 · 8141 阅读 · 1 评论 -
Hadoop中TeraSort算法分析
<br /><br />1、概述<br />1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名 ,耗时209秒。那么Terasort在Hadoop中是怎样实现的呢?本文主要从算法设计角度分析Terasort作业。<br />2、算法思想<br />实际上,当我们要把传统的串行排序算法设计成并行的排序算法时,通常会想到分而治之的策略,即:把要排序的数据划成M个数据块(可以用Hash的方 法做到),转载 2011-05-18 15:29:00 · 1122 阅读 · 0 评论 -
Hadoop性能调优(一)--总述
根据yahoo架构师Milind Bhandarkar在《Hadoop Application Performance Tuning》中的阐述,Hadoop的性能调优主要分为以下六个方面:• Changing number of Map and Reduce tasks• Decrease Intermediate data size using combiner• Decrease map-side disk spill• Decrease intermediate data size by compre原创 2011-05-18 15:30:00 · 930 阅读 · 0 评论 -
TeraSort实验--测试Map和Reduce Task数量对Hadoop性能的影响
通过Hadoop自带的Terasort排序程序,测试不同的map task和reduce task数量,对Hadoop性能的影响。原创 2011-05-19 14:53:00 · 3838 阅读 · 1 评论 -
Hadoop0.21.0源码流程分析(1)-客户端提交作业
Hadoop0.21.0源码流程分析(1)-客户端提交作业原创 2011-05-27 20:50:00 · 864 阅读 · 0 评论 -
Hadoop0.21.0源码流程分析(2)-主节点接收作业
JobTracker功能概述 JobTracker负责调度job的每一个子任务task运行于slave上,并监控它们,如果发现有失败的task就重新运行它。JobTracker一直在等待JobClient通过RPC提交作业,而TaskTracker一直通过RPC原创 2011-06-14 22:08:00 · 663 阅读 · 0 评论 -
Hadoop0.21.0源码流程分析(3)-Task节点管理启动任务
源码流程分析3-Task节点管理启动任务 1. 代码执行流程1) TaskTracker的启动的时候会加载所有信息,包括利用RPC获得JobTracker 的RPC变量定义为jobClient;TaskTracker.run()方法会去循环向JobTracke原创 2011-07-11 15:55:26 · 806 阅读 · 0 评论