Input Format相关知识小结

最新推荐文章于 2023-07-15 14:11:39 发布

suhb06

最新推荐文章于 2023-07-15 14:11:39 发布

阅读量845

点赞数

分类专栏：并行计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/suhb06/article/details/8266325

版权

并行计算专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. hadoop为什么只能设置reduce数，而不能设置map数？

首先单个文件（即hadoop fs -ls看到的文件）的split计算公式：split数目=file_size/max(min_format_size, min_split_size, min(block_size, max_split_size)

默认情况下，min_split_size=1, max_split_size=long_max, min_format_size由文件格式决定，一般的文本文件为1，压缩文件会比较大，因此分母这一项

默认=block_size(128M)

那么任务最重的map数=sum(各个file的split数目）, 显然它是大于等于总共的file数目。

2. 如果输入数据过大，任务的map数太多，该怎么办？

从上面的公式可以看出，只要调整min_split_size即可，譬如设置为256M即可减小map数

3. 如果输入的小文件过大，导致map数大，运行效率低，该怎么办？

先将数据转化为SequenceInputFormat，如果上游没做这个转化，那么下游就需要做，转化后的数据record之间有一个Rsync间隔符，这也是SequenceInputFormat

文件可以进行split的原因。

4. 如果每个record数据包括多行，譬如微博数据，该如何split保证每个record数据被完整划分到单个split单元？

假设record是一行，在split的时侯找到当前split单元的start位置，start--(假设start位于某行的结尾，会漏掉下一行），然后把start开始的这一行扔掉就可以了。扔掉

的这一段与上一个split单元的结尾段要拼在一起，这就涉及到跨split单元读。

可以在相邻record数据之间加入特殊的分隔符，譬如@符号，然后类比上面按行读取（因为它的本质就是检测\n符号）

5. hadoop的lzo文件可以split吗？index文件有什么用？

如果没有index文件，是无法split的，结合index信息，可以定位出record的开头和结尾，这样才能进行split

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Input Format相关知识小结

1. hadoop为什么只能设置reduce数，而不能设置map数？首先单个文件（即hadoop fs -ls看到的文件）的split计算公式：split数目=file_size/max(min_format_size, min_split_size, min(block_size, max_split_size) 默认情况下，min_split_size=1, max_spl
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。