写在前面
本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系
解答
为了便于存储和管理,HDFS上的文件都被切割成固定大小的数据块,
HDFS上所有的文件都被切成固定大小128MB的数据块(block),只有最后一个数据块的大小是变化的。
而当新的数据写入使得数据块大小超过系统设定值之后,新的数据块会产生。而系统的默认值是128MB。
一个 513MB 的原始文件是如何拆分的如图所示:
文献参考
《大数据时代 hadoop 技术及应用分析》韦鹏程,施成湘,蔡银英著