大数据6-Maptask并行度有关

deyu01

于 2018-09-17 09:25:43 发布

阅读量259

点赞数

分类专栏： hadoop

hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.FileInoutFormat切片机制：

2.总结：

1.切片是为了给maptask分配任务，也就是为了整个mapreduce程序做map的并行度规划；

2.一个切片会交给一个maptsak来处置；

3.默认的切片机制是FileInputFormat getSplits（），他的逻辑是对输入目录中所有的文件挨个进行切片，切片的参数splitSize == block.size；

4.默认的切片机制在小文件的处理场景之下，效率特别低，需要特别注意。

3.注意：
1.因为每个切片的大小默认情况下是128M，如果一个文件是260M，那么切了128M后还剩132M，如果剩余的长度/splitSize <= 1.1，就将我们剩余的全部并入一个切片中。

2.小文件情场：默认的切片机制会造成大量的maptask处理很少的数据量，这样效率很低下：

解决方案：

a.上上策：在把小文件上传到hdfs之前就进行预处理，事先合并后在上传；

b.上策：事先将小文件进行合并（自己写合并程序）；

c.中下策：修改getSplits（）的逻辑，把多个小文件当成大文件来处理。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。