一.分布式并行编程
1.1 MapReduce 是一种分布式编程框架。
1.2 Hadoop MapReduce是MapReduce的开源实现,门槛更低;
1.3 MapReduce适合数据密集型的应用。
二.MapReduce模型简介
2.1 将MapReduce的底层处理细节抽象成Map和Reduce两个函数;
2.2 MapReduce 采用分而治之的策略 ,将大数据集切分为非常多的独立的小分片,为每个分片单独启动一个map任务,最终通过多个map任务,并行的在多个机器上去处理数据。
2.3 MapReduce理念
- 计算向数据靠拢而不是数据向计算靠拢:将应用程序分发到数据所在的机器;
- 采用Master/slave的架构;
- Map函数:输入数据是键值对,输出也是键值对;
- Reduce函数:键:值列表作为输入数据,输出为键值对;
三.MapReduce体系结构
3.1 Client客户端:通过Client可以提交用户编写的应用程序,提交到JobTracker端;也可以查看作业运行状态;
3.2 JobTracker:负责资源的监控和作业调度;监控底层TaskTracker和当前运行的Job的健康状态;以及对失败情况及时把任务转移到其他结点继续执行;跟踪任务执行进度和资源使用量;
3.3 TasK Tracker:执行具体的相关任务;会把自己的资源使用情况,以及任务运行进度通过heartbeat发送给JobTracker;以slot(槽)为单位去调度资源;。
四.MapReduce 工作流程
4.1 HDFS主要进行分布式数据存储,HDFS和MapReduce组合使用;
4.2 不同的map和reduce之间是不会发生信息交换的;
4.3 MapReduce执行的各个阶段
- InputFormat:从HDFS中加载数据,对输入进行格式验证;
- Split:把大的输入文件进行分片(逻辑分片);
- RR:记录阅读器:根据分片的长度和位置信息,读出每个分片,以键值对的形式输入map;
- shuffle:对许多中间结果进行分区排序,归并,发送给Reduce;
- OutputFormat:对数据格式进行验证,写入分布式文件系统;
4.4 分片:分片要适中,分片大小一般以一个块的大小作为分片大小;分片和map数量对应;
4.5 Reduce数量
- 最优的Reduce任务数取决于集群中可用的reduce任务槽的数量;
- 通常设置比reduce任务槽数量稍微小一些的Reduce任务个数,预留一定资源用于系统处理可能发生的错误;
五.Shuffle 过程
5.1 Map端的shuffle过程
- 每个map任务分配一定的缓存,默认100M;
- 设置一个溢写比,一般设置为0.8,即不是缓存满了才发生溢写;溢写要发生分区(对应相应的Reduce)排序,合并(对多个相同的键值对合并为一个);然后写入磁盘;磁盘上的多个磁盘文件归并为一个大的磁盘文件,也可以设置一个阈值;
5.2 Reduce端的shuffle过程
- 归并:对多个相同键值对归并为一个键值对列表;
六.MapReduce应用程序的执行过程
- 中间结果写入本地磁盘,不写入分布式文件系统;
七.词频统计案例
-
只有满足分而治之的任务才能用MapReduce来去处理;
八.MapReduce编程 -
继承Map,重写map函数;
-
继承Reduce,重写reduce函数;