java获取hdfs文件md5_HDFS读流程

最新推荐文章于 2023-04-01 16:12:39 发布

weixin_42119358

最新推荐文章于 2023-04-01 16:12:39 发布

阅读量942

点赞数

文章标签： java获取hdfs文件md5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42119358/article/details/114806545

版权

客户端先与NameNode通信，获取block位置信息，之后线性地先取第一个块，然后接二连三地获取，取回一个块时会进行MD5验证，验证通过后会使read顺利进行完，当最终读完所有的block块之后，拼起来就是一个完整的源文件，数据本地化读取是分布式计算中计算向数据移动的一大特征，block块有偏移量和位置信息，HDFS分布式文件系统优化了读取性能，客户端会根据block的信息来分辨这些副本中，哪些副本距离客户端自身最近，那么本地、同机架、以及其他DataNode会是一个由近及远的排序，后面我们再分析MapReduce源代码的时候，会再进行分析这一优化特性。请先记住HDFS读流程的两个重要特性：

(1) block信息的MD5验证

(2) 读取block时距离优先顺序的优化。

图1.8 HDFS读流程来自《Hadoop：The Definitive Guide》一书

读取文件的具体方式如下：

1. 从Hadoop URL读取数据

要从Hadoop文件系统中读取文件，最简单的方法是使用java.net.URl对象打开数据流，从中读取文件。但是，如何让java程序能够识别Hadoop的hdfs URL呢？这里采用的方法是通过调用java.net.URL对象的setURLStreamHandlerFactory方法，方法中传入FsUrl

最低0.47元/天解锁文章

weixin_42119358

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java获取hdfs文件md5_HDFS读流程

客户端先与NameNode通信，获取block位置信息，之后线性地先取第一个块，然后接二连三地获取，取回一个块时会进行MD5验证，验证通过后会使read顺利进行完，当最终读完所有的block块之后，拼起来就是一个完整的源文件，数据本地化读取是分布式计算中计算向数据移动的一大特征，block块有偏移量和位置信息，HDFS分布式文件系统优化了读取性能，客户端会根据block的信息来分辨这些副本中，哪些...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。