client读写hdfs的源码分析总结

    周末花了一天的时间仔细了重温了一下client对HDFS文件的读写过程,总结如下:

   每次读写都是以一个数据块的形式来进行的,并且包括数据内容和数据的校验值。另外,到 namenode 上获取相应的信息都是用 RPC 来通信的,而到 datanode 获取真正的数据块内容是由 Socket 的网络流来进行的,这是因为二者的通信数据量还是有些差别的,另外一点是考虑了网络拥塞问题。

    同时客户端为了提高效率,一般都是从 datanode 上读写一个块大小的数据内容,然后缓存到本地内存的。另外到 namenode 上读取数据块信息也是类似的,一次性读取了多个数据块信息,缓存到本地内存,来减少 namenode 的通信拥塞。

 另外,对于分布集群,要重点考虑以下问题:

数据划分,负载平衡,通信拥塞,各结点的本地数据管理,资源合理利用,错误处理等。

归根结底就是扩展性,可靠性,高性能。

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值