![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HADOOP集群知识
文章平均质量分 89
大数据YYDS
致力于成为最强架构师的男人!
展开
-
Mapreduce的工作流程以及Shuffle机制
仅作复习时使用。 MapReduce工作流程 第一步,准备好文件; 第二步,切片分析; 第三步,客户端会提交3个信息:Job的切片、jar包(集群模式才有)、Job运行相 关的参数信息; 第四步,Yarn会开启一个Mr appmaster(整个任务的老大),Mr appmaster会读 取客户端提交的信息,根据切片信息开启对应个数的MapTask; 后续讲解一个MapTask的工作内容: 第五步,MapTask开启InputFormat(默认TestInputFormat)来按行读取对应切 片原创 2021-07-23 10:35:31 · 1118 阅读 · 0 评论 -
HDFS的读写流程和文件块大小设置
仅供复习时使用。 HDFS写入数据: client端按128MB的块切分文件。 注意: 在数据流式传输过程中,最小传输单位是Packet,大小为64k,其中Packet是由512bytes的chunk和4bytes的chunksum(chunk校验码)组成; 客户端向NameNode发出写文件请求。 client将NameNode返回的分配的可写的DataNode列表和Data数据一同发送给最近的第一个DataNode节点,此后client端和NameNode分配的多个DataNode构成pipel原创 2021-07-23 10:07:51 · 1090 阅读 · 0 评论