Input Format相关知识小结

1. hadoop为什么只能设置reduce数,而不能设置map数?

   首先单个文件(即hadoop fs -ls看到的文件)的split计算公式:split数目=file_size/max(min_format_size, min_split_size, min(block_size,  max_split_size)

   默认情况下,min_split_size=1, max_split_size=long_max, min_format_size由文件格式决定,一般的文本文件为1,压缩文件会比较大,因此分母这一项

   默认=block_size(128M)

   那么任务最重的map数=sum(各个file的split数目),  显然它是大于等于总共的file数目。


2. 如果输入数据过大,任务的map数太多,该怎么办?

    从上面的公式可以看出,只要调整min_split_size即可,譬如设置为256M即可减小map数


3. 如果输入的小文件过大,导致map数大,运行效率低,该怎么办?

    先将数据转化为SequenceInputFormat,如果上游没做这个转化,那么下游就需要做,转化后的数据record之间有一个Rsync间隔符,这也是SequenceInputFormat

    文件可以进行split的原因。


4. 如果每个record数据包括多行,譬如微博数据,该如何split保证每个record数据被完整划分到单个split单元?

    假设record是一行,在split的时侯找到当前split单元的start位置,start--(假设start位于某行的结尾,会漏掉下一行),然后把start开始的这一行扔掉就可以了。扔掉

    的这一段与上一个split单元的结尾段要拼在一起,这就涉及到跨split单元读。

    可以在相邻record数据之间加入特殊的分隔符,譬如@符号,然后类比上面按行读取(因为它的本质就是检测\n符号)


5. hadoop的lzo文件可以split吗?index文件有什么用?

     如果没有index文件,是无法split的,结合index信息,可以定位出record的开头和结尾,这样才能进行split

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值