MapReduce
文章平均质量分 81
gjt19910817
这个作者很懒,什么都没留下…
展开
-
mapreduce 过程中关于 0-length 数据进入reducer 时的处理
当MapOutputBuffer对象进行spill时,会对每个 key/pair原创 2014-07-24 07:08:29 · 1100 阅读 · 0 评论 -
Hadoop MapReduce之MapOutputBuffer分析
前言 MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。 该章节会分析在MapTask端的详细处理流程以及MapOutputCollector是如何处理map之后的collect输出的数据。map端的主要处理流程图1 MapTask处理流程 图1所示为MapTask的主要代码执行流程,在MapTask启动后会进入入口run函数,根据是否使用新的api转载 2014-07-16 00:20:23 · 4455 阅读 · 0 评论 -
TaskTracker中HttpServer doGet源码分析
TaskTracker节点的内部Http服务组件主要提供两个功能:1)./logtask,获取某一个Task的执行日志;2)./mapOutput,获取某一个Task的map输出数据。对于用户来说,Http服务组件的/logtask功能不是必须的,但是它的/mapOutput功能对于整个Map-Reduce框架实现来说则是至关重要的,因为每一个Job的每一个Reduce任务就是通过该服务来获取它所转载 2014-07-24 02:15:44 · 948 阅读 · 0 评论 -
Hadoop平台优化综述
1. 概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1) Namenode/jobtracker单点故障。 Hadoop采用的是mast转载 2014-11-13 22:30:01 · 844 阅读 · 0 评论 -
Map/Reduce Task 远程调试详解
Map/Reduce Task 远程调试详解原创 2014-06-17 22:10:07 · 5009 阅读 · 7 评论 -
YARN中MRAppMaster的事件驱动模型与状态机处理消息过程的分析
在MRv1中,对象之间的作用关系是基于函数调用实现的,当一个对象向另外一个对象传递消息时,会直接采用函数调用的方式,并且这个过程是串行的。比如,当TaskTracker需要执行一个Task的时候,将首先下载Task依赖的文件(JAR包,二进制文件等,字典文件等),然后执行Task。在整个过程中,下载依赖文件是阻塞式的,也就是说,前一个任务未完成文件下载之前,后一个新任务将一直处于等待状态,只有在下原创 2015-02-03 04:36:07 · 3547 阅读 · 0 评论 -
YARN MapReduce MRAppMaster-剖析
一 概述 MRv1主要由编程模型(MapReduce API)、资源管理与作业控制块(由JobTracker和TaskTracker组成)和数据处理引擎(由MapTask和ReduceTask组成)三部分组成。而YARN出现之后,资源管理模块则交由YARN实现,这样为了让MapReduce框架运行在YARN上,仅需要一个ApplicationMaster组件完成作转载 2015-02-05 06:39:12 · 1863 阅读 · 0 评论