【Hadoop】（六）详解 HDFS 的数据流（面试重点

2401_84166536

已于 2024-04-30 07:35:47 修改

阅读量107

点赞数 5

分类专栏：程序员文章标签： hadoop hdfs 面试

于 2024-04-30 07:35:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84166536/article/details/138333114

版权

程序员专栏收录该内容

184 篇文章 0 订阅

订阅专栏

文章目录

- 一、HDFS写数据流程
  - - 1. 剖析文件写入
      - 2. 网络拓扑-节点距离计算
      - 3. 机架感知（副本存储节点选择）
  - 二、HDFS读数据流程

前言：在《Hadoop系列》的第一篇博文里，就已经提到了
【hadoop】（一）分布式文件系统 HDFS，但作为面试中经常遇到的数据流的问题，特地拎出来专门写一篇文章，详细解读 HDFS 数据流的知识点，帮助小伙伴们跳出面试中的那些大坑。

一、HDFS写数据流程

1. 剖析文件写入

HDFS写数据流程，如下图所示。
在这里插入图片描述

客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
NameNode返回是否可以上传。
客户端请求第一个 Block上传到哪几个DataNode服务器上。
NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
dn1、dn2、dn3逐级应答客户端。
客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

2. 网络拓扑-节点距离计算

在HDFS写数据的过程中，NameNode会选择距离待上传数据最近距离的DataNode接收数据。那么这个最近距离怎么计算呢？
节点距离：两个节点到达最近的共同祖先的距离总和。

在这里插入图片描述
例如，假设有数据中心d1机架r1中的节点n1。该节点可以表示为/d1/r1/n1。利用这种标记，这里给出四种距离描述，如上图所示。

3. 机架感知（副本存储节点选择）

机架感知说明

官方文档是这样说的：

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

需要这份系统化资料的朋友，可以戳这里获取*

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
【Hadoop】（六）详解 HDFS 的数据流（面试重点

在《Hadoop系列》的第一篇博文里，就已经提到了。
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄106天

292: 原创

-: 周排名

-: 总排名

19万+: 访问

: 等级

7117: 积分

2967: 粉丝

3928: 获赞

18: 评论

3967: 收藏

私信

关注

热门文章

分类专栏

2024年程序员学习 78篇
程序员 184篇

最新评论

大数据最新ES学习日记(一)-------单节点安装启动_es 单节点运行启动命令(2)，2024年最新全球最火的程序员学习路线
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
大数据最新python面试题——版本管理工具GIT（二）_python 面试gitee(2)
普通网友: 每当我阅读你的编程博客文章时，我总能感受到你的专业水平和耐心解答的精神。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
大数据最新python面试题——版本管理工具GIT（二）_python 面试gitee(2)
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Elasticsearch 单节点部署教程，以及踩坑记录_elasticsearch单节点配置(2)
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024年大数据最全大数据竞赛数据抽取部分_gy_pub，2024年最新大数据开发性能优化面试题集锦
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。