HDFS块大小

最新推荐文章于 2023-08-03 15:48:21 发布

@Peanut

最新推荐文章于 2023-08-03 15:48:21 发布

阅读量2k

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45287265/article/details/107644076

版权

hadoop 专栏收录该内容

17 篇文章 3 订阅

订阅专栏

块大小取决于dfs.blocksize，2.x默认为128M，1.x默认为64M（128M指的是块的最大大小！每个块最多存储128M的数据，如果当前块存储的数据不满128M，存了多少数据，就占用多少的磁盘空间！一个块只属于一个文件！）

默认为128M的原因，基于最佳传输损耗理论！

不论对磁盘的文件进行读还是写，都需要先进行寻址！

最佳传输损耗理论：在一次传输中，寻址时间占用总传输时间的1%时，本次传输的损耗最小，为最佳性价比传输！

目前硬件的发展条件，普通磁盘写的速率大概为100M/S, 寻址时间一般为10ms!

10ms / 1% = 1s
1s * 100M/S=100M

块在传输时，每64K还需要校验一次，因此块大小，必须为2的n次方，最接近100M的就是128M！

如果公司使用的是固态硬盘，写的速度是300M/S，将块大小调整到 256M

如果公司使用的是固态硬盘，写的速度是500M/S，将块大小调整到 512M

块大小需要合适调节

不能太大：
当前有文件a, 还有1G内存
假设当前只需要读取a文件0-128M部分的内容
128M一块 1G可以存8块，取第一块
1G一块 1G存可以1块，取第一块

①在一些分块读取的场景，不够灵活，会带来额外的网络消耗
②在上传文件时，一旦发生故障，会造成资源的浪费

不能太小：
比如文件a,128M
1M一块： 128个块，生成128个块的映射信息
128M一块， 1个块，一个块的映射信息
①块太小，同样大小的文件，会占用过多的NN的元数据空间
②块太小，在进行读写操作时，会消耗额外的寻址时间

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS块大小

块大小取决于dfs.blocksize，2.x默认为128M，1.x默认为64M 默认为128M的原因，基于最佳传输损耗理论！不论对磁盘的文件进行读还是写，都需要先进行寻址！最佳传输损耗理论：在一次传输中，寻址时间占用总传输时间的1%时，本次传输的损耗最小，为最佳性价比传输！目前硬件的发展条件，普通磁盘写的速率大概为100M/S, 寻址时间一般为10ms! 10ms / 1% = 1s 1s * 100M/S=100M 块在传输时，每64K还需要校验一次，因此
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。