HDFS的block和切片（split）的区别

soso爱吃汉堡包.

于 2021-11-02 23:30:35 发布

阅读量350

点赞数

分类专栏：大数据导论作业文章标签： hdfs hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63179170/article/details/121111673

版权

大数据导论作业专栏收录该内容

6 篇文章 0 订阅

订阅专栏

在这里插入图片描述
1.block是HDFS中切块的大小，是物理切块。
split是逻辑切片。
2.split的大小在默认的情况下和HDFS 的block切块大小一致，为了是Mapreduce处理的时候减少由于split和block之间大小不一致，可能会完成多余的网络之间的传输。
3.Block：当我们把文件上传到HDFS时，文件会被分块，这是真实的物理划分，每块的大小可与通过配置选项进行设置。
Split：是逻辑意义上的split，通常在MR程序或者其他数据处理技术上用到，其大小是允许用户定义的，
4.满足数据本地性的情况下，程序也会从远程节点上读取少量数据，因为存在被切割到不同的block上。因为存在某些行数据跨block，读取每个block的时候都会从下一i个block多读取一行的数据，也就是说操作会读取两个block的数据。
5.Block适合用于数据备份，进而提供数据容错能力和可用性。
通常一个split就是一个block，这样做的好处是使得Map可以在储存有当前数据的节点上运行本地的任务，而不需要通过网络进行跨节点的任务调度。
6.若没有特别指定，splitsize就等于HDFS的blocksize。

soso爱吃汉堡包.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS的block和切片（split）的区别

1.block是HDFS中切块的大小，是物理切块。split是逻辑切片。2.split的大小在默认的情况下和HDFS 的block切块大小一致，为了是Mapreduce处理的时候减少由于split和block之间大小不一致，可能会完成多余的网络之间的传输。3.Block：当我们把文件上传到HDFS时，文件会被分块，这是真实的物理划分，每块的大小可与通过配置选项进行设置。Split：是逻辑意义上的split，通常在MR程序或者其他数据处理技术上用到，其大小是允许用户定义的，4.满足数据本地性的情况.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。