hadoop --MapReduce

6人阅读 评论(0) 收藏 举报
分类:

    MapReduce 分布式计算,移动计算而不是移动数据

    步骤:split - map - shuffle - reduce

    split : 把数据切成片段(计算框架自动做)。split块的大小与block相同。

    Map : 跟程序员编写的代码相关。(java程序)

    shuffle : 合并、排序

    reduce : reduce 的个数由程序决定。

    当map输出的数据个数较多,reduce 就多。

    shuffle 的工作大多由mapreduce框架自动完成。

    解决数据倾斜:更改partition规则,每一个partition对应一个reduce去执行。

    合并(Combine)的目的:减少map的输出


    MapReduce架构:

    主JobTracker:负责调度分配每一个子任务task运行于TaskTracker上,如果发现有失败的task就重新分配其任务到其他节点。每一个hadoop集群只有一个JobTracker。一般它运行于Master节点上。

    从TaskTracker:TaskTracker主动与JobTracker通信,接收作业,并负责直接执行每一个任务,为了减少网络带宽TaskTracker最好运行在HDFS的DataNode上 (1.0版本有)

    Map(Mapper) + Reduce (Reducer)

    大量数据的并行计算:

    Map<key, value>    entry(条目)(key-value)

    key:行号,0为基址

    Map的输出是reduce的输入(数据格式一致,中间有shuffle)

    shuffle:洗牌、分组、排序


    

    


    

查看评论

Hadoop MapReduce部署

  • 2018年04月01日 09:24
  • 117KB
  • 下载

Hadoop MapReduce原理及实例

MapReduce是用于数据处理的一种编程模型,简单但足够强大,专门为并行处理大数据而设计。1. 通俗理解MapReduceMapReduce的处理过程分为两个步骤:map和reduce。每个阶段的输...
  • bingduanlbd
  • bingduanlbd
  • 2016-07-16 22:14:53
  • 13039

从零开始学Hadoop——浅析MapReduce(一)

之前,我们说过Hadoop的两个核心为HDFS和MapReduce,既然我们已经学习了Hadoop的HDFS,那么我们就来看看MapReduce是什么。当然,我们学习的顺序还是先看看基本概念,再研究一...
  • u010168160
  • u010168160
  • 2016-05-18 09:06:26
  • 8112

Hadoop那些事儿(二)---MapReduce开发环境搭建

上一篇文章介绍了在ubuntu系统中安装Hadoop的伪分布式环境,这篇文章主要为MapReduce开发环境的搭建流程。1.HDFS伪分布式配置使用MapReduce时,如果需要与HDFS建立连接,及...
  • u012116457
  • u012116457
  • 2017-01-19 20:41:25
  • 2968

hadoop知识点总结(一)hadoop架构以及mapreduce工作机制

hadoop知识点总结(一)hadoop架构以及mapreduce工作机制 学习笔记
  • m0_37138008
  • m0_37138008
  • 2017-06-12 14:06:07
  • 474

hadoop上的两种运行mapreduce程序的方法

之前学习了一段时间的hadoop的相关知识 ,学习理论基础的时候要同时实际操作才能对它更熟练,废话不多说来说说在hadoop上运行一个最简单的words count的程序 首先我先贴上这个程序的源...
  • YQlakers
  • YQlakers
  • 2017-04-13 19:22:18
  • 3225

hadoop的mapreduce任务的执行流程

hadoop2.x的三大核心:mapreduce 、hdfs以及yarn ,其中核心之一mapreduce,利用了分而治之的思想,Map(映射)和 Reduce(归约),分布式多处理然后进行汇总的思想...
  • qq_20641565
  • qq_20641565
  • 2017-03-23 20:25:19
  • 1258

hadoop入门--简单的MapReduce案例

转载:http://my.oschina.net/itblog/blog/275294 分析MapReduce执行过程     MapReduce运行的时候,会通过Mapp...
  • zhangt85
  • zhangt85
  • 2014-12-22 10:50:20
  • 64061

hadoop中mapreduce程序的几种提交运行模式

本地运行模式 在windows的eclipse里买能直接运行main方法,就会将job提交给本地执行其localjobrunner执行 输入输出数据可以放在本度路径下(c:/file/src)...
  • qq_25689397
  • qq_25689397
  • 2016-04-04 00:50:27
  • 2131

hadoop — MapReduce例子 (求平均值)

参考文章:http://www.cnblogs.com/-wangjiannan/p/3590438.html math.txt: 张三 88 李四 99 王五 ...
  • m53931422
  • m53931422
  • 2014-12-01 16:26:17
  • 1242
    个人资料
    持之以恒
    等级:
    访问量: 662
    积分: 626
    排名: 8万+
    文章存档
    最新评论