![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
山河执手
这个作者很懒,什么都没留下…
展开
-
wordCount程序设计思想
MapReduce经典案例wordCount的设计思想Mapper阶段1.我们将MapTask传给我们的文本内容先转换成一行字符串2.根据空格对这一行进行分割,从而形成多个单词3.通过for循环我们将得到一系列<单词,1>这样形式的中间结果4.输出的中间结果将保存在内存的缓冲区中,而缓冲区的中间结果会被定期写到磁盘上。Shuffle阶段Shuffle阶段会对Map阶段产生的中间结果进行排序和分区,得到<key,value-list>的形式,分发给不同的Reduce原创 2021-06-14 15:58:26 · 639 阅读 · 0 评论 -
网络拓扑-节点距离计算
网络拓扑-节点距离计算问题:在HDFS写数据的过程中,客户端会请求NameNode询问将数据上传到哪些DataNode服务器,那NameNode是如何挑选的呢?答案:NameNode 会选择距离待上传数据最近距离的 DataNode 接收数据引出一个问题:最近距离怎样计算?答案:让节点距离(两个节点到达最近的共同祖先的距离总和)最短图片解释:(摘自尚硅谷)具体描述:1.同一机架的同一节点,不用说都知道是02.同一机架的不同节点,n1,n2的共同祖先是r1,n1到r原创 2021-04-26 12:49:40 · 1786 阅读 · 1 评论 -
HDFS 的写数据流程
HDFS 的读写流程流程图:(该图来自尚硅谷)详细描述:1.客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件2.NameNode检查权限并确保文件不存在,如果权限校验通过,并且文件不存在,NameNode记录这次操作,否则就返回I/O exception给客户端。3.如果NameNode返回可以上传,客户端请求NameNode询问第一个 Block 上传到哪几个 DataNode 服务器上。4.NameNode 返回 3 个 DataNode原创 2021-04-26 11:17:56 · 195 阅读 · 0 评论