HDFS读取和写入剖析

最新推荐文章于 2020-11-16 13:28:55 发布

LaZY_apple

最新推荐文章于 2020-11-16 13:28:55 发布

阅读量184

点赞数

分类专栏：大数据文章标签： HDFS 大数据

本文链接：https://blog.csdn.net/weixin_43093501/article/details/89423504

版权

39 篇文章 6 订阅

订阅专栏

参考《hadoop权威指南》

读取

客户端通过DistributedFileSystem对象的open（）方法打开希望读取的文件。

客户端通过DistributedFileSystem对象调用create()创建文件。
DistributedFileSystem对namenode创建一个RPC调用，在文件系统命名空间创建一个文件，namenode执行检查（已存在，权限）
DistributedFileSystem类返回一个FSDataInputStream输入流对象。
输入流将数据分成数据包（分块），形成数据队列。
DataStreamer挑选合适的一组datanode存放数据，称为一个管线。
（默认）复本存放策略：
1 客户端所在节点（客户端在集群外的话，随机选节点）
2 不同于第一个节点的机架上
3 同2机架的不同节点
其他随机
数据包和校验和流式传入管线中的节点
当datanode发生故障，关闭管线。
在该数据块所在的其他datanode做个标识，发送给namenode。
管线中删除故障datanode。
数据包继续在管线中的正常namenode间发送。
（副本量不足时，在另一个节点上创建新副本）
一个数据包写完后datanode通知客户端和namendoe，然后写下一个数据包。
都写完以后，通知namenode
客户端对数据流调用close方法

关注

专栏目录