hdfs写入数据和读取数据

王改改63 的日记

已于 2022-06-17 14:06:26 修改

阅读量1.1k

点赞数

分类专栏： jdbc 文章标签： hdfs

于 2021-03-06 12:08:49 首次发布

本文链接：https://blog.csdn.net/quietlyw/article/details/114436680

版权

本文详细介绍了HDFS的数据写入流程，包括客户端通过shell命令上传文件，Namenode的检查，数据切块，副本机制，RPC调用以及副本节点故障处理。同时也提到了数据读取的基本步骤，如客户端缓存，数据chunk化，checksum校验以及Packet的处理。文中深入探讨了HDFS的设计思想和优化策略。

摘要由CSDN通过智能技术生成

1.客户端通过shell命令的方式传输文件到HDFS上(申请上传)
2.namenode检查文件夹是否存在,检查文件是否存在,如果文件夹不存在是肯定不能上传的,如果文件存在就要看有没有覆盖写入了
3.返回允许上传通知
4.判断文件的大小,然后切割文件,默认按照128m去切割(hadoop2.x)按照64m去切割(hadoop1.x）
5.通知namenode上传第一个block块
6.namenode通过副本机制得到block块应该放在哪些datanode节点上的地址列表
7.返回这些地址给client端
8.client端和一个datanode建立连接,我们设为A,然后A又和另外一个datanode建立连接,我们设为B,然后B又和另外一个datanode建立连接,我们设为C,这里其实是建立的一个远程RPC调用
9.将块再次分成packet(64kb)发送给A节点,每个节点会将packet重组成block块
10.A节点会发送给B节点,B节点会发送给C节点
11.C节点会返回给B节点一个ack确认码,B节点会返回A节点一个ack确认码,A节点会返回client端一个确认码

思考: 为什么是128m呢?
最小化寻址开销，如果太小，namenode的压力就会比较大，如果太大，datanode在计算的时候压力就会比较大，一般我们都会手动设置这个大小.
思考: 副本机制应该返回哪些datanode节点呢?
假设3个副本,如果文件在datanode的节点上,第一个副本应该在客户端所在的datanode节点上,也就是本地,这样可以避免网络传输,如果文件不是在datanode的节点上,应该是随机发送到一个datanode上的.
第二个副本应该是放在第一个副本的不同机架上,设计思想:容灾
第三个副本应该是放在和第二个相同的机架上,设计思想:避免网络传输造成不要开销

思考:为什么采用RPC调用呢?
简单：RPC 概念的语义十分清晰和简单，这样建立分