HDFS的架构及原理

最新推荐文章于 2024-07-22 19:02:18 发布

magina_lil

最新推荐文章于 2024-07-22 19:02:18 发布

阅读量589

点赞数

分类专栏： hadoop 文章标签： hadoop hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/magina_lil/article/details/49273745

版权

hadoop 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

读文件:

client node启动client JVM 调用FileSystem的open方法获取DistributedFileSystem实例

DistributedFileSystem通过RPC从nameNode获取第一批block的locations,这些block通过拓扑排序, 优先级:同节点>同机架>其他机架

前两步会返回一个FSDataInputStream对象,该对象呗封装成DFSInputStream对象,此对象可以管理DN和NN的数据流,客户端调用read方法,DFSInputStream就会找出离客户端最近的DN并连接.

数据从DN流向客户端

如果第一个block读完了,就关闭指向第一block块的DN链接,接着读下一个block

如果第一批block都读完了,DFSInputStream去NN拿下一批block的location,如果所有的block都读完,则关闭所有的流

写入文件:

首先把文件切分成block.

client一般都是把文件写入到3个DN中,所以NN中要增加一个文件,放到目录树中,存放元数据?,NN要返回3个DN的位置,client先拿到最近的DN的位置

每次写入一个packet大小(默认64K),第一个64k写到第一个节点上,再写下一个64k,当第一数据块写完,第一个DN再把数据传给第二个DN,以此类推..形成数据写入流水线

当最后一个节点写完了,会传递给前一个节点通知,当第一个节点收到此通知后,开始写下一个数据块

当所有数据块写完后,关闭所有的流,并通知NN,文件写完了.

副本存放策略

Hadoop 0.17之前的副本策略

第一个副本：存储在同机架的不同节点上。

第二个副本：存储在同机架的另外一个节点上。

第三个副本：存储在不同机架的另外一个节点。

其它副本：选择随机存储。

Hadoop 0.17 之后的副本策略

第一个副本：存储在同 Client 相同节点上。

第二个副本：存储在不同机架的节点上。

第三个副本：存储在第二个副本机架中的另外一个节点上。

其它副本：选择随机存储。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

magina_lil CSDN认证博客专家 CSDN认证企业博客

码龄9年

43: 原创

55万+: 周排名

82万+: 总排名

9万+: 访问

: 等级

1375: 积分

9: 粉丝

11: 获赞

6: 评论

25: 收藏

私信

关注

热门文章

分类专栏

nifi 3篇
flink 3篇
hadoop 13篇
hbase 4篇
linux 10篇
lua 1篇
java基础 10篇
eclipse 字符集编码 1篇
算法 1篇
kafka 1篇
git 1篇
javaee 2篇
hive 1篇
区块链 7篇
JS 1篇
elasticsearch 1篇

最新评论

Nifi组件脚本开发—ExecuteScript 使用指南（一）(转)
CSDN-Ada助手: 非常感谢CSDN博主分享的"Nifi组件脚本开发—ExecuteScript 使用指南（一）(转)"博客，对使用ExecuteScript组件进行脚本开发的读者来说应该非常有用。我觉得下一篇你可以继续就ExecuteScript组件的高级使用技巧、脚本优化以及实用场景等方面进行探讨，相信会有更多读者受益于此。期待看到您的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
flink dataStream API
你嘉圣同学: 那这个怎么验证呢？尤其是forward，这个不能之说结论呀。另外你说的task是subtask吧？并行化之后最终都是在subtask执行的
修改hdfs的副本数量
magina_lil: 实际存储不会立即减小,删除副本之后会有一个策略,将数据放入回收站. 好像是24小时之后才会真正的减小.具体的你再查一下
修改hdfs的副本数量
daleHaven: 请问减小了副本数之后实际的存储是否减小了？
修改hdfs的副本数量
Deepturn: 我在大佬的评论区瑟瑟发抖

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。