2015年04月_天佑凡人

原创 MapReduce之shuffle过程

Shuffle描述着数据从map task输出到reduce task输入的这段过程。官网图片表示Shuffle过程横跨map与reduce两端，如下图：一 map端shuffle map端流程如下图： 1. map的输入来自HDFS的block(块)。 2.map的输出是

2015-04-28 11:32:54 414

原创原MapReduce与YARN比对

一、原 MapReduce 程序的流程 1. 首先用户程序 (JobClient) 提交了一个 job，job 的信息会发送到 Job Tracker 中，Job Tracker 是 Map-reduce 框架的中心，他需要与集群中的机器定时通信 (heartbeat), 需要管理哪些程序应该跑在哪些机器上，需要管理所有 job 失败、重启等操作。 2. Tas

2015-04-21 18:14:06 421

转载 Hadoop之各进程与组件总结

1、hadoop通过一个jobtracker分派任务到一系列tasktracker来运行，tasktracker同时向jobtracker返回任务运行结果。jobtracker对作业的输入数据进行分片，然后为每个分片创建一个map任务，同时创建一定数量的reduce任务，并指派空闲的tasktracker来执行这些任务。tasktracker从jobtracker处获取任务jar包以及分片

2015-04-20 09:41:44 743

转载 hadoop实现Join的几种方法

1) reduce side joinreduce side join是一种最简单的join方式，其主要思想如下：在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/value数据对，对每条数据打一个标签（tag）,比如：tag=0表示来自文件File1，tag=2表示来自文件File2。即：map阶段的主要任务是对不同文件中的数据打标签

2015-04-14 17:15:10 3449

1. namenode始终在内存中保存metedata（整个文件系统的目录结构，每个目录有哪些文件，每个文件有哪些分块及每个分块保存在哪个DataNode上），用于处理“读请求”（不需要修改内容），到有“写请求”到来时，namenode会首先对metedata修改的内容写editlog到磁盘（每一次改变都会同步到磁盘。），成功返回后，才会修改内存，并且向客户端返回。客户端在写数据到每个datano

2015-04-14 09:40:02 518

转载 hadoop Secondary NameNode作用

1. 光从字面上来理解，很容易让一些初学者先入为主的认为：SecondaryNameNode（snn）就是NameNode（nn）的热备进程。其实不是。snn是HDFS架构中的一个组成部分，但是经常由于名字而被人误解它真正的用途，其实它真正的用途，是用来保存namenode中对HDFS metadata的信息的备份，并减少namenode重启的时间。2. 对于hadoop进程中，

2015-04-09 18:02:07 711

唤不醒的梦

原创 MapReduce之shuffle过程

原创原MapReduce与YARN比对

转载 Hadoop之各进程与组件总结

转载 hadoop实现Join的几种方法

转载 hadoop之namenode工作特点

转载 hadoop Secondary NameNode作用

空空如也

空空如也

原创 MapReduce之shuffle过程

原创 原MapReduce与YARN比对

转载 Hadoop之各进程与组件总结

转载 hadoop实现Join的几种方法

转载 hadoop之namenode工作特点

转载 hadoop Secondary NameNode作用

空空如也

空空如也

原创原MapReduce与YARN比对