MapReduce
文章平均质量分 91
can007
莫畏浮云遮望眼...
展开
-
Apache Hadoop2.0 安装部署说明
Apache Hadoop 2.0 安装部署1. 环境说明 Hadoop的版本选用的hadoop-2.0.2-alpha,此版本的hadoop增加了诸如Fedreation等许多新功能。是目前Apache Hadoop最新的版本。 Apache-Hadoop下载地址: http://www.apache.org/dyn/closer.cgi原创 2012-12-15 11:15:47 · 3590 阅读 · 0 评论 -
Hadoop2.3+Hive0.12集群部署
0 机器说明IPRole192.168.1.106NameNode、DataNode、NodeManager、ResourceManager192.168.1.107SecondaryNameNode、NodeManager、DataNode192.168.1.108原创 2014-03-20 23:58:13 · 2386 阅读 · 0 评论 -
Mapreduce执行过程分析(基于Hadoop2.4)——(三)
4.4 Reduce类4.4.1 Reduce介绍整完了Map,接下来就是Reduce了。YarnChild.main()—>ReduceTask.run()。ReduceTask.run方法开始和MapTask类似,包括initialize()初始化,根据情况看是否调用runJobCleanupTask(),runTaskCleanupTask()等。之后进入正式的工作,主要有这原创 2014-07-10 23:05:13 · 1484 阅读 · 0 评论 -
Mapreduce执行过程分析(基于Hadoop2.4)——(二)
4.3 Map类 创建Map类和map函数,map函数是org.apache.hadoop.mapreduce.Mapper类中的定义的,当处理每一个键值对的时候,都要调用一次map方法,用户需要覆写此方法。此外还有setup方法和cleanup方法。map方法是当map任务开始运行的时候调用一次,cleanup方法是整个map任务结束的时候运行一次。4.3.1 Map介绍原创 2014-07-10 23:04:07 · 1741 阅读 · 0 评论 -
Mapreduce执行过程分析(基于Hadoop2.4)——(一)
1 概述该瞅瞅MapReduce的内部运行原理了,以前只知道个皮毛,再不搞搞,不然怎么死的都不晓得。下文会以2.4版本中的WordCount这个经典例子作为分析的切入点,一步步来看里面到底是个什么情况。2 为什么要使用MapReduceMap/Reduce,是一种模式,适合解决并行计算的问题,比如TopN、贝叶斯分类等。注意,是并行计算,而非迭代计算,像涉及到层次聚类的问题就不原创 2014-07-10 23:03:03 · 1523 阅读 · 0 评论