自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

唤不醒的梦

纵使困顿难行 亦当砥砺奋进

  • 博客(6)
  • 收藏
  • 关注

原创 MapReduce之shuffle过程

Shuffle描述着数据从map task输出到reduce task输入的这段过程。官网图片表示Shuffle过程横跨map与reduce两端,如下图:   一 map端shuffle    map端流程如下图:                        1. map的输入来自HDFS的block(块)。     2.map的输出是

2015-04-28 11:32:54 414

原创 原MapReduce与YARN比对

一、原 MapReduce 程序的流程        1. 首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 Job Tracker 中,Job Tracker 是 Map-reduce 框架的中心,他需要与集群中的机器定时通信 (heartbeat), 需要管理哪些程序应该跑在哪些机器上,需要管理所有 job 失败、重启等操作。        2. Tas

2015-04-21 18:14:06 421

转载 Hadoop之各进程与组件总结

1、hadoop通过一个jobtracker分派任务到一系列tasktracker来运行,tasktracker同时向jobtracker返回任务运行结果。jobtracker对作业的输入数据进行分片,然后为每个分片创建一个map任务,同时创建一定数量的reduce任务,并指派空闲的tasktracker来执行这些任务。tasktracker从jobtracker处获取任务jar包以及分片

2015-04-20 09:41:44 743

转载 hadoop实现Join的几种方法

1) reduce side joinreduce side join是一种最简单的join方式,其主要思想如下:在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value数据对,对每条数据打一个标签 (tag),比如:tag=0表示来自文件File1,tag=2表示来自文件File2。即:map阶段的主要任务是对不同文件中的数据打标签

2015-04-14 17:15:10 3449

转载 hadoop之namenode工作特点

1. namenode始终在内存中保存metedata(整个文件系统的目录结构,每个目录有哪些文件,每个文件有哪些分块及每个分块保存在哪个DataNode上),用于处理“读请求”(不需要修改内容),到有“写请求”到来时,namenode会首先对metedata修改的内容写editlog到磁盘(每一次改变都会同步到磁盘。),成功返回后,才会修改内存,并且向客户端返回。客户端在写数据到每个datano

2015-04-14 09:40:02 518

转载 hadoop Secondary NameNode作用

1.  光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其 实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间。2. 对于hadoop进程中 ,

2015-04-09 18:02:07 711

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除