MapReduce

一.分布式并行编程
1.1 MapReduce 是一种分布式编程框架。
1.2 Hadoop MapReduce是MapReduce的开源实现,门槛更低;
1.3 MapReduce适合数据密集型的应用。

二.MapReduce模型简介
2.1 将MapReduce的底层处理细节抽象成MapReduce两个函数;
2.2 MapReduce 采用分而治之的策略 ,将大数据集切分为非常多的独立的小分片,为每个分片单独启动一个map任务,最终通过多个map任务,并行的在多个机器上去处理数据。

2.3 MapReduce理念

  • 计算向数据靠拢而不是数据向计算靠拢:将应用程序分发到数据所在的机器;
  • 采用Master/slave的架构;
  • Map函数:输入数据是键值对,输出也是键值对;
  • Reduce函数:键:值列表作为输入数据,输出为键值对;

三.MapReduce体系结构
在这里插入图片描述
3.1 Client客户端:通过Client可以提交用户编写的应用程序,提交到JobTracker端;也可以查看作业运行状态;
3.2 JobTracker:负责资源的监控和作业调度;监控底层TaskTracker和当前运行的Job的健康状态;以及对失败情况及时把任务转移到其他结点继续执行;跟踪任务执行进度和资源使用量;
3.3 TasK Tracker:执行具体的相关任务;会把自己的资源使用情况,以及任务运行进度通过heartbeat发送给JobTracker;以slot(槽)为单位去调度资源;。

四.MapReduce 工作流程
在这里插入图片描述
4.1 HDFS主要进行分布式数据存储,HDFS和MapReduce组合使用;
4.2 不同的map和reduce之间是不会发生信息交换的;
4.3 MapReduce执行的各个阶段
在这里插入图片描述

  • InputFormat:从HDFS中加载数据,对输入进行格式验证;
  • Split:把大的输入文件进行分片(逻辑分片);
  • RR:记录阅读器:根据分片的长度和位置信息,读出每个分片,以键值对的形式输入map;
  • shuffle:对许多中间结果进行分区排序,归并,发送给Reduce;
  • OutputFormat:对数据格式进行验证,写入分布式文件系统;

4.4 分片:分片要适中,分片大小一般以一个块的大小作为分片大小;分片和map数量对应;
在这里插入图片描述
4.5 Reduce数量

  • 最优的Reduce任务数取决于集群中可用的reduce任务槽的数量;
  • 通常设置比reduce任务槽数量稍微小一些的Reduce任务个数,预留一定资源用于系统处理可能发生的错误;

五.Shuffle 过程
在这里插入图片描述
在这里插入图片描述
5.1 Map端的shuffle过程
在这里插入图片描述

  • 每个map任务分配一定的缓存,默认100M;
  • 设置一个溢写比,一般设置为0.8,即不是缓存满了才发生溢写;溢写要发生分区(对应相应的Reduce)排序,合并(对多个相同的键值对合并为一个);然后写入磁盘;磁盘上的多个磁盘文件归并为一个大的磁盘文件,也可以设置一个阈值;

5.2 Reduce端的shuffle过程
在这里插入图片描述

  • 归并:对多个相同键值对归并为一个键值对列表;

六.MapReduce应用程序的执行过程
在这里插入图片描述

  • 中间结果写入本地磁盘,不写入分布式文件系统;

七.词频统计案例

  • 只有满足分而治之的任务才能用MapReduce来去处理;
    在这里插入图片描述
    八.MapReduce编程

  • 继承Map,重写map函数;

  • 继承Reduce,重写reduce函数;
    在这里插入图片描述
    在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

秘境之眼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值