mapreduce将key相同的value结合在一起_个人理解Hadoop中MapReduce

MapReduce 是什么?

MapReduce是一种分布式离线计算框架 主要分为MapTask 和ReduceTask两部分

主要用于大规模的数据集(大于1T)的并行运算

首先我先讲解下MapReduce 的流程: 架构图

a0e4a1809cf9f57e80e64268d3075ef5.png

个人理解 : 这张图拆封成左右两部分 左边(map) 右边(reduce)

首先分为 split -> map -> shuffle -> reduce

split: 比如我们有三个块,这样每个块分别开maptask并行去计算

block在存数据的时候会把数据切坏掉(比如:hello单词 可能按照 he 存在一个

块的末尾 llo存在下一个块的头上) split就是告诉后面的map 要计算的数据是

哪些(记录了文件的偏移量) 默认split的个数是和文件的block的块个数相

map: maptask的个数由 split 的个数决定 map中输出的内容 以 一种 key , value的

形式输出 “相同”的key为一组,调用一次reduce方法,方法内迭代这一

组数据进行计算

shuffle:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值