HDFS的读写文件流程

最新推荐文章于 2023-05-29 15:01:58 发布

Se_cure

最新推荐文章于 2023-05-29 15:01:58 发布

阅读量538

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dxyna/article/details/80068571

版权

HDFS写流程:

客户端要向HDFS写数据,首先要和namenode进行通信来获得接受文件块(block)的datanode,然后客户端将按顺序将block逐个传到响应的datanode上,并由接收block的datanode负责像其他的datanode复制block的副本

写入步骤详解:

1. 客户端向namenode请求上传文件, namenode检查目标文件是否存在,夫目录是否存在

2. namenode 返回可使用资源 ,客户端根据使用资源对要写入的数据进行分块

3. 客户端请求第一个block上传位置

4. namenode返回3个datanode节点,分别为data1 ,data2 ,data3

5. 客户端请求向第一个data1上传block,data1收到请求后会调用data2,然后data2调用data3,将通道建立完成,逐级应答客户端

6. 客户端开始向data1上传第一个block(先从磁盘读取数据放到一个本地内存缓冲),单位为packet(一个packet为64kb),在写入data1的时候会进行数据校验，它并不是通过一个packet进行一次校验而是以chunk为单位进行校验（512byte）,data1收到packet就会传给data2,data2传给data3,第一台每传一个packet会放入一个应答队列等待应答

7. 当一个block传输完成之后,datanode进行报告给namenode存储的块信息,同时也告诉客户端写入成功

8. 客户端再次请求namenode上传第二个block的服务器（重复执行3-7步）

HDFS读流程:

客户端要向HDFS写数据,首先要和namenode进行通信来获得需要读取文件的元信息(主要是block的存放文件位置信息),客户端根据获取的信息找到相应的datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件

读取步骤详解:

1. client和namenode进行通信查询元数据(block所在的datanode节点),找到block所在的datanode服务器

2. 挑选一台datanode,请求建立连接(就近原则,然后随机),请求建立socket流

3. datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验)

4. 客户达以packet为单位接受,首先在本地缓冲,然后写入目标文件,后面的block追加合并到这个文件,最后合成最终需要的文件

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS的读写文件流程

HDFS写流程: 客户端要向HDFS写数据,首先要和namenode进行通信来获得接受文件块(block)的datanode,然后客户端将按顺序将block逐个传到响应的datanode上,并由接收block的datanode负责像其他的datanode复制block的副本写入步骤详解: 1. 客户端向namenode请求上传文件, namenode检查目标文件是否存在,夫目录是否存在...
复制链接

扫一扫

Se_cure CSDN认证博客专家 CSDN认证企业博客

码龄7年

30: 原创

14万+: 周排名

80万+: 总排名

21万+: 访问

: 等级

1716: 积分

46: 粉丝

73: 获赞

21: 评论

488: 收藏

私信

关注

热门文章

分类专栏

java
大数据 7篇
linux 6篇
爬虫 1篇

最新评论

spark的介绍和pyspark的使用
ArchieWan: 赞，学习每门技术或者组件之前，他的作用以及自身处于架构中的位置需要先弄明白。就像 HiveOnSpark 和 SparkOnHive 就是不同的使用方式&角色定位
怎么使用python来发送邮件
Mark eleven: 发不了要报错？
pyspark里面RDD的操作
难得心动*: 满地伤
PIL图像处理之ImageFilter
itsLeeeeee: 想问一下，高斯模糊半径与高斯核尺寸的关系
pyspark里面RDD的操作
走起的人生: 感谢作者给的练习案例；“3. 各季节的最高和最低温度” 这个例子在冬天的最高和最低温度有问题修正代码： >>> def ma(x): ... x = x.split(',') ... lists = [] ... for i in x[1:]: ... lists.append(int(i)) ... return x[0],max(lists),min(lists) ... >>> >>> wendu.map(ma).collect() [('春天', 16, 12), ('夏天', 24, 21), ('秋天', 19, 17), ('冬天', -1, -10)]

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。