Hadoop中HDFS切片的概念

切片是文件逻辑上的划分,通常与切块大小一致以优化读取效率。每个切片由一个MapTask处理,切片大小可调,最小值为Minsize,最大值不超过Maxsize和blockSize(切块大小)的较小值。调整切片大小影响数据处理策略,主要考虑避免跨机器读取。
摘要由CSDN通过智能技术生成

1.切片的概念:切片是计算机数据从逻辑上文件的进行划分,切块存储数据时从物理上将文件进行切分
2.一个切片对应一个MapTask来处理
3.切片大小默认情况等于切块大小(这样的目的是为了计算机读取数据效率更高,避免跨机器读取数据)
4.切片的时候不考虑数据整体集,默认情况下对单个文件的进行切片。

如果改变切片大小
如果往大改 改Minsize 默认值是0
往小改 改Maxsuze
Math.max(minSize,Math.min(maxSize,blockSize)). —blockSize 为切块大小!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值