hdfs总结笔记

最新推荐文章于 2024-08-16 10:03:15 发布

BIN3399

最新推荐文章于 2024-08-16 10:03:15 发布

阅读量160

点赞数

分类专栏：大数据组件文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43401491/article/details/107654578

版权

本文详细介绍了Hadoop的分布式文件系统HDFS，包括其高容错性、高吞吐量、大文件存储等特点，以及NameNode、DataNode和Client的角色。此外，还探讨了写入、读取流程，副本策略，元数据持久化，联邦机制，数据存储策略和数据完整性保障。HDFS与Hive、HBase的关系也有所阐述，HDFS为它们提供底层存储支持，而MapReduce和Zookeeper则分别提供计算能力和稳定性。

摘要由CSDN通过智能技术生成

HDFS是Hadoop技术框架中的分布式文件系统可以放在多台独立物理机器上的文件进行管理
HDFS作为Hadoop的基础存储设施，实现了一个分布式、高容错、可线性扩展的文件系统。

其中自身具备的特点
高容错性：不相信自己的硬件，保存数据保存多个副本
高吞吐量：为大量数据访问的应用提供高吞吐量支持。
大文件存储：支持存储TB-PB级别的数据

适合
大文件存储与访问流式数据访问

但不适合
大量小文件存储
随机写入
低延迟读取

架构
在hdfs架构中有三部分
NameNode：用于存储元数据
DataNode：存储真实数据
Client：业务访问，从NameNode，DataNode获取数据

写流程
Client向NameNode请求写入文件让后NameNode创建节点，写入文件，之后客户端收到数据后，从NameNode获取信息，并写入数据到datanode 完成后在复制到其他的databode上，写入完成后会返回信息给客户端client

读流程
Client向NameNode获取文件信息并读取文件，之后客户端根NameNode获取的信息，向datanode获取相应的数据，读取完成后就会调用close关闭

关键性
高可靠性：主要体现在利用zookeeper实现主备NameNode，以解决单点NameNode故障问题
ZooKeeper主要用来存储HA下的状态文件，主备信息。ZK个数建议3个及以上且为奇数个。 NameNode主备模式，主提供服务，备同步主元数据并作为主的热备。

副本存放策略：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hdfs总结笔记

HDFS是Hadoop技术框架中的分布式文件系统可以放在多台独立物理机器上的文件进行管理HDFS作为Hadoop的基础存储设施，实现了一个分布式、高容错、可线性扩展的文件系统。其中自身具备的特点高容错性：不相信自己的硬件，保存数据保存多个副本高吞吐量：为大量数据访问的应用提供高吞吐量支持。大文件存储：支持存储TB-PB级别的数据适合大文件存储与访问流式数据访问但不适合大量小文件存储随机写入低延迟读取架构在hdfs架构中有三部分NameNode：用于存储元数据Da..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。