MR job中map和reduce的确定时机

任务在开始之前即完全确定。

map个数的影响因子:

1)数据总大小
2)  blocksize大小
3)  文件个数
4)文件格式(txt,orc则可以分块,若为gzip/snappy则不能利用分布式计算的优势)。

reduce个数的影响因子:

1) 自定义设置,但是不是一定有效。如遇到order by等特殊关键字,则受该类关键字制约。
2) 推测估计公式计算:  
		 input_map_data_size/hive.exec.reducers.bytes.per.reducer   
         hive.exec.reducers.bytes.per.reducer 该参数默认是64M=67108864
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值