![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据导论作业
大数据导论作业
无洺
这个作者很懒,什么都没留下…
展开
-
节点距离计算
jiedian节点距离计算:两个节点到达最近的共同祖先的距离总和。集群可认为机房。DiStance(d1/r1/n0, d1/r1/n0) =0(同一节点上的进程)Distance (d1/r1/n1, d1/r1/n2) =2 (同一机架上的不同节点)Distance (d1/r2/n0,d1/r3/n2) =4 (同一数据中心不同机架上的节点)Distance(d1/r2/n1,d2/r4/n1) =6 (不同数据中心的节点)注意:要一步一步来计算,直至到最近共同祖先,每一.原创 2021-10-30 12:23:58 · 291 阅读 · 0 评论 -
YARN的工作机制
在 Hadoop1.0 中,MapReduce 的 JobTracker 负责了太多的工作,包括资源调度,管理众多的 TaskTracker 等工作。这自然是不合理的,于是 Hadoop 在 1.0 到 2.0 的升级过程中,便将 JobTracker 的资源调度工作独立了出来,而这个独立出来的资源管理框架,就是 Yarn 。几个重要组成介绍:1,Container:容器。容器由NodeManager启动和管理,并被它所监控。 ...原创 2021-10-29 21:37:52 · 622 阅读 · 0 评论 -
HDFS的block与切片(split)的区别
一:block是物理上的数据分割,split是逻辑上的数据分割。二: 用户可自定义split size。三:一个split不会包含零星点几或者几点几个block,一定是包含大于等于一个个整数个block。四:一个split不会包含两个file的block,不会跨越file边界。五:split和block是一对多的关系。六:maptasks的个数最终决定于splits的长度。举例:File 1:Block1,Block2,Block3,Block4,Block5File...原创 2021-10-29 19:36:54 · 280 阅读 · 0 评论 -
HDFS写数据流程
HDFS写数据流程图原创 2021-10-26 21:38:20 · 670 阅读 · 0 评论 -
HDFS读数据流程图
1,客户端给namenode发起文件下载请求。2,namenode返回文件存储所在的datanode block块信息。3,客户端根据拿到的block信息与距离最近的切片所在的datanode 建立通道信息,获取文件切片。4,datanode将该节点上的切片信息传输给客户端。5,如果没有获取到所有的切片信息,再与距离最近其他切片副本所在的datanode建立通信通道,获取该节点的切片。如此重复,直到获取到所有的切片信息。6.客户端拿到所有的切片后,将切片组装称完整的文件。...原创 2021-10-29 18:55:12 · 225 阅读 · 0 评论