Hadoop 文件的数量怎么比block的数量多？

最新推荐文章于 2022-07-21 15:59:50 发布

weixin_30390075

最新推荐文章于 2022-07-21 15:59:50 发布

阅读量186

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/huaxiaoyao/p/5023956.html

版权

Total files:    23
Total symlinks:        0
Total blocks (validated):    22 (avg. block size 117723 B)
Minimally replicated blocks:    22 (100.0 %)
Over-replicated blocks:    0 (0.0 %)
Under-replicated blocks:    0 (0.0 %)
Mis-replicated blocks:        0 (0.0 %)
Default replication factor:    2
Average block replication:    2.0
Corrupt blocks:        0
Missing replicas:        0 (0.0 %)
Number of data-nodes:        2
Number of racks:        1
FSCK ended at Sun Dec 06 13:17:09 CST 2015 in 20 milliseconds

有一次，同事问我说，文件数怎么比block数目还要多，这正常吗？
当时查看的情况是文件数一千多万，block的总数不到一千万。
我当时也没想出原因。现在知道了，并不是我们想的，block的数量应该是文件的数量* 复本数
这里fsck 给出的数据是这样理解的，block数量不是总的复本数，文件按block大小划分的数量。
而且我们在执行mapreduce的时候，会生成sucess之类的标识文件，这样的文件是空的，不算block
所以文件的数量会比block数量多，这是正常的。

转载于:https://www.cnblogs.com/huaxiaoyao/p/5023956.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30390075

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop 文件的数量怎么比block的数量多？

Total files: 23 Total symlinks: 0 Total blocks (validated): 22 (avg. block size 117723 B) Minimally replicated blocks: 22 (100.0 %) Over-replicated blocks: 0 (0.0 %...
复制链接

扫一扫