hdfs之读，写，删除流程

最新推荐文章于 2023-01-28 14:11:20 发布

醉游江湖

最新推荐文章于 2023-01-28 14:11:20 发布

阅读量1.1k

点赞数 1

文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40645193/article/details/109307100

版权

本文详细介绍了HDFS中文件的删除流程，不同于传统的文件删除方式，HDFS通过分解任务减少NameNode压力，提高用户体验。删除文件时，NameNode仅记录删除操作，DataNode在心跳过程中发现无效Block并删除。此外，讨论了HDFS的副本策略、优点、缺点以及分布式文件系统的实现方式。HDFS的写流程包括文件切块、DataNode之间的数据传输，而读流程则涉及从NameNode获取Block位置信息，客户端直接连接DataNode读取数据。

摘要由CSDN通过智能技术生成

1.删除hdfs文件是如何实现的？
HDFS中进行数据的删除，与传统思想区别很大。传统硬件文件的删除操作是用户首先找到要删除文件所在的位置，然后把文件清除掉。而在 HDFS 中，由于一个大文件是被切割成若干个小的Block，然后这些Block是以多副本的形式存储在不同的DataNode中。文件与对应Block存储位置的映射关系存储在NameNode中,如果一起找到该文件所有映射位置，启动多线程进行删除时，会给NameNode带来很大压力，客户的等待时间也长。HDFS在这方面有充分的考虑，把删除任务分解成不同的工作线程，减轻NameNode_工作负载压力，使客户体验度提高。HDFS删除数据的流程示意如图所示。
在这里插入图片描述
后台会按照第一个块+副本，第二个块+副本…的顺序进行删除。
图中HDFS 删除数据具体过程描述如下:
1.第一步:Client向 NameNode发出一个删除的文件的请求，NameNode从请求中获知Client要删除的文件是什么，会将删除文件的信息记录到Edit Log上形成一条删除的日志。
2．修改记录完成后，给Client发回消息表示删除完成。此时Client认为文件已经删除掉了。此时，只有Client端与NameNode发生了信息的交互，真实的数据还存在于DataNode中没有删除掉, EditLog上形成的删除的日志的记录信息与Fslmage中信息没有合并完成。
留在DataNode中的实际数据什么时候清除?
在回答这个问题前，先强调一-件事，经过读写的学习我们了解到Client都是先到NameNode获得文件切成块的信息与块数据存储在DataNode的位置后才进行下一.步的操作。所以常规想法删除也应该是Client得到块存储信息后到指定DataNode把数据删除就完事啦。其实不然然，为了减轻NameNode节点工作压力，为了提高客户体验难度，前面讲过用户体验到删除时，实际数据不一定真的已经被删除。这里要讲的HDFS实际的删除机制受NameNode与DataNode访问关系影响，NameNode.不会定期的向各个DataNode去“索取”块Block的信息，而是各个DataNode定期向NameNode汇报块Block的信息。为此，还留存在DataNode里的实际数据删除时间及过程如下所述:
(a) DataNode 会定时地向NameNode发送心跳，汇报存储于当地磁盘中数据块Block的信息列表:
(b) NameNode 收到列表信息后，会在自己的内存中查这些数据块BIock属于什么文件,虽然FsImage中存储的是文件名到数据块Block的映射，实际上NameNode在启动时会有一个Block到文件名的反向索引结构:。
© NameNode确认DataNode此次汇报的列表信息中不存在的Block为无效的( Invalid)的数据块Block并列成列表的形式回复给DataNod

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
hdfs之读，写，删除流程

1.通过客户端上传数据经历了什么？2.底层是如何实现的3.删除hdfs文件是如何实现的？4.hdfs的优点高容错性；适合批处理；适合大数据处理；流式访问；可搭建在廉价机器上5.hdfs的缺点：不能低延迟数据访问；不适合小文件存取；不能并发写入，文件任意修改...
复制链接

扫一扫

醉游江湖 CSDN认证博客专家 CSDN认证企业博客

码龄7年

147: 原创

23万+: 周排名

148万+: 总排名

10万+: 访问

: 等级

1858: 积分

40: 粉丝

37: 获赞

14: 评论

333: 收藏

私信

关注

热门文章

分类专栏

orcale

最新评论

linux之sodu与tar命令
发呆林: 标题写错了吧是sudo？
解决journalnode与NameNode连接问题
Azoner: 感谢虽然我的配置里米有延迟这一项
linux之vim练习题
d1353434: 因为他这是看的鸟哥私房菜例题吧，人家那个需要下载文件操作的
Git2.32安装
Bravestardream: 你这不就是一直下一步嘛，还有什么可讲的嘛
linux之vim练习题
m0_60333810: 大佬为什么我在第三步复制的时候显示找不到该文件目录呢？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。