HDFS基础知识（设计目标，相关概念，可靠性保障，读写，优缺点）

最新推荐文章于 2022-05-18 17:14:17 发布

login_sonata

最新推荐文章于 2022-05-18 17:14:17 发布

阅读量3.4k

点赞数 1

分类专栏： Hadoop 文章标签： hadoop HDFS 分布式大数据数据存储

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/login_sonata/article/details/54801232

版权

本文介绍了Hadoop分布式文件系统HDFS的基础知识，包括设计目标、相关概念如数据块、NameNode和DataNode，以及高可用性措施。HDFS适用于大规模数据集的存储，以流式数据访问为主，通过块复制实现高容错性。然而，它不适合低延迟数据访问和大量小文件存储，并且不支持多用户写入和文件任意位置修改。

摘要由CSDN通过智能技术生成

一，HDFS出现的背景

虽然硬盘存储容量在不断提升，但是访问速度（I/O）跟不上，解决办法是数据存储在多个硬盘，同时对多个硬盘的数据并行读写。
这样需要解决两个问题：一是硬件故障问题，二是分析任务需要结合不同来源的数据。
于是，Hadoop提供了一个可靠的共享存储和分析系统：HDFS实现数据的存储，MapReduce实现数据的分析和处理。
作为Hadoop的核心技术之一，HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）是分布式计算中数据存储管理的基础。它所具有的高容错、高可靠、高可扩展性、高吞吐率等特性为海量数据提供了不怕故障的存储，也为超大规模数据集（Large Data Set）的应用处理带来了很多便利。

二，HDFS的设计前提与目标

硬件错误是常态而不是异常。

HDFS被设计为运行在众多的普通硬件上，所以硬件故障是很正常的。因此，错误检测并快速恢复是HDFS最核心的设计目标。
流式数据访问。

HDFS的设计建立在“一次写入、多次读取”的基础上。一个数据集由数据源生成或复制而来，然后响应各种各样的数据分析任务请求，每次分析都涉及该数据集的大部分数据甚至全部，因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。
大规模数据集。

HDFS的文件大小都在GB甚至TB级别。
简单一致性模型。

由于HDFS采用“一次写入，多次读取”的访问模式，所以文件一经创建、写入和关闭之后就不需更改了，简化了数据一致性问题，使高吞吐量的数据访问成为可能。
移动计算比移动数据更为划算。

对于大文件来说，移动计算比移动数据的代价要低，在数据旁边进行操作效率会比较高，尤其是数据量大时，这样可以减少网络拥塞和提高吞吐量，所以把计算迁移到数据附近更好，而不是把数据传输到程序运行的地方。

三，HDFS相关概念

1，数据块

在单一磁盘的文件系统中，每个磁盘都有默认的数据块大小，这是磁盘进行数据读/写的最小单位。HDFS同样也有块(block)的概念，但是大得多，默认是64MB。与单一磁盘上的文件

最低0.47元/天解锁文章

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

login_sonata CSDN认证博客专家 CSDN认证企业博客

码龄8年

95: 原创

4万+: 周排名

161万+: 总排名

62万+: 访问

: 等级

4500: 积分

203: 粉丝

455: 获赞

90: 评论

1545: 收藏

私信

关注

热门文章

分类专栏

最新评论

CNN卷积神经网络和反向传播
Jack_Kuo: 我也发现了他这个错误，可以看正确的解释：https://blog.csdn.net/weixin_37251044/article/details/81910932#comments_23258957
CNN卷积神经网络和反向传播
Jack_Kuo: 我也发现了他这个错误，可以看正确的解释：https://blog.csdn.net/weixin_37251044/article/details/81910932#comments_23258957
CNN卷积神经网络和反向传播
Jack_Kuo: 我也发现了他这个错误，可以看正确的解释：https://blog.csdn.net/weixin_37251044/article/details/81910932#comments_23258957
CNN卷积神经网络和反向传播
Jack_Kuo: 我也发现了他这个错误，可以看正确的解释：https://blog.csdn.net/weixin_37251044/article/details/81910932#comments_23258957
判断有向图是否存在环的2种方法（深度遍历，拓扑排序）
芝士莓莓1229: 方法1有问题 1-3，2-3，3-4，4-5，5-2测不出有环

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。