![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MapReduce
The Great Ant
做一个功成名就的人
展开
-
2021-04-22
HDFS的写数据中的ack数据流程:真正写出的流DfsoOutputFormatpacket数据包放到dataqueue队列中DataStreame线程将dataqueue数据拿出来1.发送给第一个datanode2.发给ackqueue队列ResponseProcessor线程专门用来接收ack的回执消息如果收到成功的ack,则表示一个Packet发送成功,ResponseProcessor线程会将ackQueue队列中对应的Packet删除。如果发生错误,所有未完成的Packet原创 2021-04-22 19:06:49 · 43 阅读 · 0 评论 -
2021-04-21
Yarn的工作机制(0)MR程序提交到客户端所在的节点。 (1)YarnRunner向ResourceManager申请一个Application。 (2)RM将该应用程序的资源路径返回给YarnRunner。 (3)该程序将运行所需资源提交到HDFS上。 (4)程序资源提交完毕后,申请运行mrAppMaster。 (5)RM将用户的请求初始化成一个Task。 (6)其中一个NodeManager领取到Tas原创 2021-04-21 22:15:33 · 36 阅读 · 0 评论 -
2021-04-19
排序是MapReduce框架中最重要的操作之一 maptask和reducetask均会对数据按照key进行排序。该操作属于hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。 默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。...原创 2021-04-19 22:33:56 · 33 阅读 · 0 评论 -
2021-04-19
ReduceTask的工作机制(1)Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。 (2)Merge阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。 (3)Sort阶段:按照MapReduce语义,用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚原创 2021-04-19 22:29:56 · 42 阅读 · 0 评论