HDFS详解

最新推荐文章于 2024-07-22 02:03:32 发布

Minus one 加1℃

最新推荐文章于 2024-07-22 02:03:32 发布

阅读量984

点赞数

分类专栏： Hadoop 文章标签： hdfs 大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_72816932/article/details/127167104

版权

Hadoop 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

HDFS(Hadoop Distributed File System) 是易于扩展的分布式文件系统，可以运行在大量的普通低成本机器上，提供容错机制，而且可以为用户提供性能极好的文件存储服务。

HDFS的优点有：

（1）高容错性
数据自动保存多个副本，副本丢失自动恢复
（2）适合批量处理
移动计算而非数据，数据位置暴露给计算框架
（3）适合大数据处理
TB,PB级的数据，百万规模以上的文件数量，10K+节点
（4）流式文件访问
一次写入，可多次读取，确保数据的一致性
（5）可构建在廉价机器上
通过多副本提高可靠性，有容错和恢复机制

HDFS的缺点与不足有：

（1）不适合低延迟数据访问
比如毫秒级的访问要求
低延迟与高吞吐率的权衡
（2）不适合小文件存取
占用NameNode大量内存
寻道时间超过读取时间
（3）不适合并发写入、文件随机修改
一个文件只能有一个Writer
仅支持append写入

HDFS的设计思想：

（1）HDFS集群分为两大角色：NameNode、DataNode (Secondary Namenode)
（2）NameNode负责管理整个文件系统的元数据(整个hdfs文件系统的目录树和每个文件的block信息)
（3）DataNode 负责管理用户的文件数据块
（4）文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上
（5）每一个文件块可以有多个副本，并存放在不同的datanode上
（6）Datanode会定期向Namenode汇报自身所保存的文件block信息，而namenode则会负责保持文件的副本数量
（7）HDFS的内部工作机制对客户端保持透明，客户端请求访问HDFS都是通过向namenode申请来进行

HDFS数据块：

（1）文件被切分成固定大小的数据块
默认数据块的大小为64M，可配置
若文件大小不到64M，则单独保存在一个块
（2）数据块大小的确定原则
数据传输时间VS寻道时间
（3）文件的存储方式
按大小被切分成若干个块，存储到不同的节点上
默认情况下每个块有三个副本

HDFS写流程：

客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本。

（1）根namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存在
（2）namenode返回是否可以上传
（3）client请求第一个 block该传输到哪些datanode服务器上
（4）namenode返回3个datanode服务器ABC
（5）client请求3台dn中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将真个pipeline建立完成，逐级返回客户端
（6）client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答
（7）当一个block传输完成之后，client再次请求namenode上传第二个block的服务器。

HDFS读流程：

客户端将要读取的文件路径发送给namenode，namenode获取文件的元信息（主要是block的存放位置信息）返回给客户端，客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件。

（1）跟namenode通信查询元数据，namenode找到文件块所在的datanode服务器
（2）挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流
（3）datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验）
（4）客户端以packet为单位接收，现在本地缓存，然后写入目标文件

HDFS的拓扑结构：

Minus one 加1℃

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。