数据经过iputformat进行节分格式化,输入map,执行计算,map输出将数据写到缓冲区,并计算分区(上图标注地方有问题),当写到一定的阀值会spill到磁盘,并进行排序,当map执行完会将各个map写出的小文件进行归并排序。map执行完后reduce会起一个fechoutservlet将数据拷贝到reduce节点,并进行合并排序,送入redcue,执行计算。做过服务端开发同学知道,图上的每个节点都是影响mapreduce执行效率的地方。影响在哪里见下一个章节
hiveSQL调优
最新推荐文章于 2024-05-15 23:24:14 发布