大数据-MapReduce

最新推荐文章于 2023-12-31 01:40:41 发布

chenbengang

最新推荐文章于 2023-12-31 01:40:41 发布

阅读量849

点赞数 1

分类专栏：大数据文章标签： mapreduce

本文链接：https://blog.csdn.net/chenbengang/article/details/104936642

版权

5 篇文章 0 订阅

订阅专栏

复杂的计算过程高度抽象成两个函数，map和reduce。
将庞大数据切片，对每个小片并行的单独使用map处理，计算向数据靠拢，数据不需要迁移，数据直接在当前机器上被执行。
hadoop集群分为一个master和若干个slave，其中master上的jobtracker负责作业调度和处理以及失败和恢复工作，slave上面的tasktracker负责接受jobtracker发送的作业处理指令完成具体的任务处理。
map函数相当于对字符串中每个字符value赋值为1，reduce相当于对相同字符合并value。

在这里插入图片描述
client（客户端）：

JobTracker（作业跟踪器）：

TaskTracker（任务调度器）：

在这里插入图片描述

在这里插入图片描述

inputformat：对输入进行格式验证，并且把大的数据逻辑切分，recordread，读出来成key-value，之后map。
outputformat：对输出进行格式检查。
文件分片大小：一个文件被分成许多块存储，对一个文件分片有个理想的值。
分片大小的设置：多少个分片就有多少个map任务，分片过多map任务过多，map任务之间相关切换耗费相关管理资源影响执行效率。分片过少，影响并行度，达不到处理效率的目的。
-理想的分片大小：一般一个块大小作为分片大小（64M或者128M），否则如图中，需要把block2传输到block1的机器，需要额外的传输效率。
reduce任务数量：在多个机器上多个任务同时进行，最优的reduce任务取决于集群总任务槽slot的个数。比总的个数稍微少一些，留些资源处理发生的错误。

在这里插入图片描述

shuffle过程包含map端的shuffle和reduce端的shuffle
缓存：默认分配100M缓存。
溢写：每个map任务先往缓存中写，写满100M满了后把缓存写入磁盘，叫溢写。
溢写比例：写满才启动溢写，会导致后来生成的map无处写丢失情况，溢写进程不能影响map任务继续执行，设置溢写比例，比如0.8，当写完80M就启动溢写（过程中还需要分区、排序、合并操作，其中分区后给reduce去处理；默认排序；合并减少溢写到磁盘中的数量，两个键值对合并成一个键值对，不是必须，定义并设置门槛值后启动）。jobtracker检测map任务的执行情况，一旦检测到map任务完成，通知相应的reduce任务把数据拉走，及完成了map端的shuffle任务。
reduce任务会向jobtracker询问要的数据是否可拿到，一旦map任务完成，数据写到磁盘，jobtracker通知reduce任务。
先归并后合并，归并是归类，合并是把value值加起来，再分给reduce任务。