hive mapreduce split 合并

本文介绍了Hive中MapReduce数据切片的过程,涉及maxSplitSize、minSplitSizeNode和minSplitSizeRack等关键参数。通过示例详细解释了如何根据节点和机架数据分布来生成数据切片,确保切片大小满足指定条件。
摘要由CSDN通过智能技术生成

大体思路:

1 先查找各个单节点,找出依次满足最大分割、最小节点分割,最后剩余数据,进入第二步

2 查看单个机架,  找出依次满足最大分割、最小机架分割,最后剩余数据,进入第三步

3 查找所有机架剩余数据,找出满足最大分割,最后剩余数据(小于最大分割),进入4步

4 将剩下的数据做为一个数据块。      

1).三个重要的属性:

  • maxSplitSize:切片大小最大值。可通过属性 "mapreduce.input.fileinputformat.split.maxsize" 或 CombineFileInputFormat.setMaxInputSplitSize()方法进行设置【不设置,则所有输入只启动一个map任务】
  • minSplitSizeNode:同一节点的数据块形成切片时,切片大小的最小值。可通过属性 "mapreduce.input.fileinputformat.split.minsize.per.node" 或 CombineFileInputFormat.setMinSplitSizeNode()方法进行设置
  • minSplitSizeRack:同一机架的数据块形成切片时,切片大小的最小值。可通过属性 "mapreduce.input.fileinputformat.split.minsize.per.rack" 或 CombineFileInputFormat.setMinSplitSizeRack()方法进行设置
  • 大小关系:maxSplitSize >= minSplitSizeNode >= minSplitSizeRack

2).切片的形成过程:

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值