HDFS上大文件如何切分？

最新推荐文章于 2022-12-15 22:49:20 发布

Shockang

最新推荐文章于 2022-12-15 22:49:20 发布

阅读量1.3w

点赞数 15

分类专栏：大数据技术体系文章标签：大数据 hdfs

本文链接：https://blog.csdn.net/Shockang/article/details/117339709

版权

282 篇文章 560 订阅

订阅专栏

本文介绍了Hadoop HDFS文件存储机制，每个文件被切割成128MB的数据块进行管理，最后一个数据块可能小于这个标准。当文件大小超过一个数据块时，会生成新的数据块。以一个513MB的文件为例，它会被切分成4个128MB的数据块和一个17MB的数据块。

摘要由CSDN通过智能技术生成

写在前面

本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系

为了便于存储和管理,HDFS上的文件都被切割成固定大小的数据块,
HDFS上所有的文件都被切成固定大小128MB的数据块(block),只有最后一个数据块的大小是变化的。
而当新的数据写入使得数据块大小超过系统设定值之后,新的数据块会产生。而系统的默认值是128MB。

一个 513MB 的原始文件是如何拆分的如图所示：

在这里插入图片描述

《大数据时代 hadoop 技术及应用分析》韦鹏程,施成湘,蔡银英著

关注

专栏目录