HDFS的block和切片(split)的区别

在这里插入图片描述
1.block是HDFS中切块的大小,是物理切块。
split是逻辑切片。
2.split的大小在默认的情况下和HDFS 的block切块大小一致,为了是Mapreduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输。
3.Block:当我们把文件上传到HDFS时,文件会被分块,这是真实的物理划分,每块的大小可与通过配置选项进行设置。
Split:是逻辑意义上的split,通常在MR程序或者其他数据处理技术上用到,其大小是允许用户定义的,
4.满足数据本地性的情况下,程序也会从远程节点上读取少量数据,因为存在被切割到不同的block上。因为存在某些行数据跨block,读取每个block的时候都会从下一i个block多读取一行的数据,也就是说操作会读取两个block的数据。
5.Block适合用于数据备份,进而提供数据容错能力和可用性。
通常一个split就是一个block,这样做的好处是使得Map可以在储存有当前数据的节点 上运行本地的任务,而不需要通过网络进行跨节点的任务调度。
6.若没有特别指定,splitsize就等于HDFS的blocksize。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值