HDFS块的大小：寻址时间和传输时间的均衡

最新推荐文章于 2023-03-01 22:11:44 发布

Charles Gao

最新推荐文章于 2023-03-01 22:11:44 发布

阅读量1.3k

点赞数 1

分类专栏： Hadoop 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CharlesCFA/article/details/114563590

版权

Hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

HDFS中的文件在物理上是分块存储（Block），块的大小可以通过配置参数(dfs.blocksize）来规定，默认大小在Hadoop2.x版本中是128M，老版本中是64M。

那么，问题来了，为什么一个block的大小就是128M呢？
默认为128M的原因，基于最佳传输损耗理论！

不论对磁盘的文件进行读还是写，都需要先进行寻址！

最佳传输损耗理论：在一次传输中，寻址时间占用总传输时间的1%时，本次传输的损耗最小，为最佳性价比传输！
目前硬件的发展条件，普通磁盘写的速率大概为100M/S, 寻址时间一般为10ms!

10ms / 1% = 1s
1s * 100M/S=100M

块在传输时，每64K还需要校验一次，因此块大小，必须为2的n次方，最接近100M的就是128M！

如果公司使用的是固态硬盘，写的速度是300M/S，将块大小调整到 256M
如果公司使用的是固态硬盘，写的速度是500M/S，将块大小调整到 512M

为什么块的大小不能设置太小，也不能设置太大？

不能太大：
当前有文件a, 1G
128M一块 1G存8块，取第一块
1G一块 1G存1块，取第一块
只需要读取a文件0-128M部分的内容
①在一些分块读取的场景，不够灵活，会带来额外的网络消耗
②在上传文件时，一旦发生故障，会造成资源的浪费

不能太小：
文件a,128M
1M一块： 128个块，生成128个块的映射信息
128M一块， 1个块，一个块的映射信息
①块太小，同样大小的文件，会占用过多的NN的元数据空间
②块太小，在进行读写操作时，会消耗额外的寻址时间

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Charles Gao CSDN认证博客专家 CSDN认证企业博客

码龄5年

68: 原创

33万+: 周排名

133万+: 总排名

9万+: 访问

: 等级

838: 积分

12: 粉丝

80: 获赞

24: 评论

199: 收藏

私信

关注

热门文章

分类专栏

Hadoop 7篇
Hadoop MapReduce 12篇
Java 9篇
Linux 4篇
Hive 27篇
Leetcode 4篇
操作系统 2篇
Spark 4篇
Hadoop优化 1篇
XML 1篇

最新评论

Hive分桶表
Big大宝贝: 看见atguigu我就觉得这个靠谱
创建表时通过 Location 指定加载数据路径（先有数据，后建表）
qq_23153607: 请问，先建外部表，然后用load。之后你用show create table，查看location时，你怎么找到你load的路径呢？
java中父类和接口有什么区别
夜的旋粒_: 解决了我很多疑惑，谢谢
HDFS块的大小：寻址时间和传输时间的均衡
Owen.y: 机器性能提高/磁盘传输速率提高 -> 传输时间降低 -> 寻址时间降低 -> 块数量减少 -> 块大小增大. 块太大: 1. 数据传输时间长, 2. 数据处理时间长. 块太小: 1. 元数据信息变多, 增加NameNode压力, 2. 寻址时间长
java中父类和接口有什么区别
LZKKJD: 有个小错误提醒一下博主，接口中现在可以定义静态方法和默认方法，不只是抽象方法

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。