Hadoop -- 分布式文件系统

最新推荐文章于 2024-10-17 00:00:00 发布

新手小农

最新推荐文章于 2024-10-17 00:00:00 发布

阅读量1.5k

点赞数 3

分类专栏： Hadoop 3.1.1 文章标签： hadoop 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62078954/article/details/134430720

版权

文章介绍了分布式文件系统中文件切分和Block的概念，包括Block作为最小读写单位，其大小选择以优化寻址和计算效率，以及为何需要等大。还强调了Block丢失对数据完整性的威胁，HDFS的备份策略以保证数据安全，如设置多个副本分散存储。

摘要由CSDN通过智能技术生成

1、分布式文件系统的思想：文件切分的思想（分而治之）

当文件存储在磁盘中，不仅效率比较低，并且文件的大小可能会超出单机的存储的范围。

所以分而治之的思想就是：

不管文件有多大，所有的文件都是由字节数组构成，当想要切分文件的时候，就是将一个字节数组切分成多份，当需要使用这份数据的时候，就可以根据偏移量将字节数据拼接在一起，此时数据又可以继续使用。

2、Block的拆分标准：

1、block是磁盘进行数据读/写的最小单元，数据被切分后的一个整体叫做块。在Hadoop1.0的版本中，默认的大小是64M，在Hadoop2.0以及后面的版本中，默认的大小是128M，这样的目的是达到最小的寻址开销。

2、在同一文件中，每一个block的大小是基本一致的，除了最后节点之外。然么对于不同的文件的block的大小是可以不一样的，不同的文件的大小可以设置成不同数量的block数量。

3、数据块的个数=Ceil(文件大小/每个块的大小)

3、对于block需要等大的原因：

1、可以达到最小的寻址的开销。

2、可以再计算的时候降低计算的复杂度。

3、可以通过偏移量来确定block的位置，并来拉取数据。

4、对于相同的文件block因该是等大的。

5、对于拉去的时间会基本一致。

注意事项

a. 只要有任意一个块丢失,整个数据文件被损坏

b. HDFS中一旦文件被存储,数据不

最低0.47元/天解锁文章

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

新手小农 CSDN认证博客专家 CSDN认证企业博客

码龄3年

92: 原创

111万+: 周排名

5万+: 总排名

4万+: 访问

: 等级

1195: 积分

198: 粉丝

251: 获赞

15: 评论

223: 收藏

私信

关注

热门文章

分类专栏

最新评论

Java-day01--基础知识
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
大数据面试专题 -- kafka
普通网友: 写的真好！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
python -- 容器
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Spark Core----Spark常用算子
简单简单小白: 讲解的很详细，很有参考价值
Scala使用的基本语法
CSDN-Ada助手: 恭喜你开始了博客创作！学习Scala的基本语法是一个很好的起点，希望你可以继续分享更多关于Scala的知识和经验。我建议你可以尝试写一些实际的代码示例，或者分享一些在实际项目中使用Scala的经验，这样可以让读者更加深入地了解这门语言。加油！期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。