第三章分布式文件系统HDFS

最新推荐文章于 2024-01-14 01:08:05 发布

倾鸢染

最新推荐文章于 2024-01-14 01:08:05 发布

阅读量323

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41895427/article/details/103110275

版权

大数据专栏收录该内容

10 篇文章 0 订阅

订阅专栏

3.1 HDFS的简介

HDFS 实现的目标

兼容廉价的硬件设备
支持大数据集
实现流数据读写（这是与传统文件系统最大不同的地方，传统文件系统是以块为数据单位读写的，而HDFS是全部或者大部分一起读写）
支持简单的文件模型（对文件模型进行简化，牺牲了某些功能，来获得能批处理的特性）
强大的扩平台兼容性

自身的局限性：

不适合低延迟数据访问（不能非常精确到某一个数据，即不能满足实时的数据处理需求，实时处理由HBase实现，因为HBase具备随机读写特性）
无法高效存储大量小文件
不支持多用户写入及任意修改文件（即只允许追加，不允许修改！！！！）

3.2 相关概念

块：整个HDFS当中最核心的概念。
普通文件系统的块与 HDFS 的块
联系：都是为了分摊磁盘读写开销，也就是在大量数据间分摊磁盘寻址的开销。
区别：HDFS的一个块比普通文件系统的块大很多。HDFS的块默认大小为64MB。
设计块的原因：

支持面向大规模数据存储
降低分布式节点的寻址开销
如果块过大会导致 MapReduce 就一两个任务在执行，完全牺牲了 MapReduce 的并行度，发挥不了分布式并行处理的效果。
寻址要经过三级寻址。即先找元数据目录，然后找数据节点，最后从数据节点取出数据，如果块太小，会导致后续寻址开销非常大。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。