Hive合并小文件，减小map数

最新推荐文章于 2024-05-23 16:26:49 发布

一路狂飚飚

最新推荐文章于 2024-05-23 16:26:49 发布

阅读量620

点赞数

分类专栏： Hive

原文链接：https://blog.csdn.net/hellojoy/article/details/104866468

版权

Hive 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Hive合并小文件，减小map数

配置文件中设置的参数的含义

1.限制Map，Reduce数

map/reduce	限制Map，Reduce数
map	set mapreduce.tasktracker.map.tasks.maximum=30; --每个nodemanager节点上可运行的最大map任务数，默认值2，可根据实际值调整为10~100；
reduce	set mapreduce.tasktracker.reduce.tasks.maximum=30; --每个nodemanager节点上可运行的最大reduce任务数，默认值2，可根据实际值调整为10~100；

2.MR输出时合并小文件

参数设置	含义
set hive.merge.mapfiles=true;	在Map-only的任务结束时合并小文件
set hive.merge.mapredfiles=true;	在Map-Reduce的任务结束时合并小文件
set hive.merge.size.per.task=128000000;	$1
set hive.merge.smallfiles.avgsize=128000000;	当输出文件的平均大小小于128M时，启动一个独立的map-reduce任务进行文件merge

3.将多个小文件打包作为一个整体的inputsplit，减少map任务数大小关系：maxSplitSize > minSplitSizeNode > minSplitSizeRack

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

参数设置	含义
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set mapreduce.input.fileinputformat.split.maxsize=128000000;	切片大小最大值，不设置,则所有输入只启动一个map任务
set mapreduce.input.fileinputformat.split.minsize.per.node=16000000;	同一节点的数据块形成切片时，切片大小的最小值
set mapreduce.input.fileinputformat.split.minsize.per.rack=16000000;	同一机架的数据块形成切片时，切片大小的最小值
set mapred.max.split.size=128000000;	最大split大小
set mapred.min.split.size.per.node=16000000;	一个节点上最小的split大小
set mapred.min.split.size.per.rack=16000000;	一个机架上最小的split大小
set spark.yarn.queue=root.super;
set mapred.job.queue.name=root.super;
set hive.auto.convert.join=true;	(大表关联小表，把小表自动加载到内存中，相当于写了一个mapjoin)
set hive.exec.parallel=true;	(在同一个sql中的不同的job是否可以同时运行)
set hive.exec.parallel.thread.number=20;	-
set mapreduce.job.reduce.slowstart.completedmaps=0.5;	(当Map Task完成的比例达到该值后才会为Reduce Task申请资源，默认是0.05)
set hive.exec.reducers.bytes.per.reducer=512000000;	(每个reduce任务处理的数据量，默认为1G)
set hive.mapred.mode=nonstrict;	-
set mapred.map.tasks=132;
set mapred.reduce.tasks=337;

解读：CombineFileInputFormat类

MR-Job默认的输入格式FileInputFormat为每一个小文件生成一个切片。CombineFileInputFormat通过将多个“小文件”合并为一个"切片"（在形成切片的过程中也考虑同一节点、同一机架的数据本地性），让每一个Mapper任务可以处理更多的数据，从而提高MR任务的执行速度。详见 MR案例： CombineFileInputFormat类

1).三个重要的属性：

maxSplitSize：切片大小最大值。可通过属性 “mapreduce.input.fileinputformat.split.maxsize” 或 CombineFileInputFormat.setMaxInputSplitSize()方法进行设置【不设置,则所有输入只启动一个map任务】
minSplitSizeNode：同一节点的数据块形成切片时，切片大小的最小值。可通过属性 “mapreduce.input.fileinputformat.split.minsize.per.node” 或 CombineFileInputFormat.setMinSplitSizeNode()方法进行设置
minSplitSizeRack：同一机架的数据块形成切片时，切片大小的最小值。可通过属性 “mapreduce.input.fileinputformat.split.minsize.per.rack” 或 CombineFileInputFormat.setMinSplitSizeRack()方法进行设置
大小关系：maxSplitSize > minSplitSizeNode > minSplitSizeRack
2).切片的形成过程：

2.1. 不断迭代节点列表，逐个节点 (以数据块为单位) 形成切片(Local Split)

a. 如果maxSplitSize == 0，则整个节点上的Block数据形成一个切片

b. 如果maxSplitSize != 0，遍历并累加每个节点上的数据块，如果累加数据块大小 >= maxSplitSize，则将这些数据块形成一个切片。继续该过程，直到剩余数据块累加大小 < maxSplitSize 。则进行下一步

c. 如果剩余数据块累加大小 >= minSplitSizeNode，则将这些剩余数据块形成一个切片。继续该过程，直到剩余数据块累加大小 < minSplitSizeNode。然后进行下一步，并这些数据块留待后续处理

2.2. 不断迭代机架列表，逐个机架 (以数据块为单位) 形成切片(Rack Split)
　　a. 遍历并累加这个机架上所有节点的数据块 (这些数据块即上一步遗留下来的数据块)，如果累加数据块大小 >= maxSplitSize，则将这些数据块形成一个切片。继续该过程，直到剩余数据块累加大小<maxSplitSize。则进行下一步

b. 如果剩余数据块累加大小 >= minSplitSizeRack，则将这些剩余数据块形成一个切片。如果剩余数据块累加大小 < minSplitSizeRack，则这些数据块留待后续处理

2.3. 遍历并累加所有Rack上的剩余数据块，如果累加数据块大小 >= maxSplitSize，则将这些数据块形成一个切片。继续该过程，直到剩余数据块累加大小< maxSplitSize。则进行下一步

2.4. 将最终剩余的数据块形成一个切片。
Demo:
规定：maxSplit=100 > minSizeNode=50 > minSizeRack=30
原有文件：Rack01：{[30,60,70] [80,110]} 　　Rack02：{170}　　
处理过程：
30+60+70 > 100 ? 100+60　　80+110 > 100 ? 100+90　　170 > 100 ? 100+70　　
　　—>　　3个数据切片，以及Rack01：{[60] [90]}　　Rack02：{70}　　
　　　　—>　　60 > 50 ? 50+10　　90 > 50 ? 50+40　　70 > 50 ? 50+20　　
　　　　　　—>　　3+3个数据切片，以及Rack01：{[10] [40]}　　Rack02：{20}　　
　　　　　　　　—>　　10+40 < 100 ?0　　20 < 100 ? 0　　
　　　　　　　　　　—>　　3+3+0个数据切片，以及Rack01：{50}　　Rack02：{20}　　
　　　　　　　　　　　　—>　　50+20 > 30 ? 30+30+10　　
　　　　　　　　　　　　　　—>　　3+3+0+3个数据切片

对hive输入格式设置为CombineHiveInputFormat的进行分析map数是如何计算的

set hive.input.format=org.apache.hadoop.hive.al.io.CombineHiveInputFormat

注：对orcformat、外表和链接文件无法使用，会转到调用父类HiveInputFormat的getsplits()函数

map数与逻辑split数是一致的，决定map的主要因素有：

1、相关表或分区input的文件个数

2、input文件的大小

3、input文件在node和rack的分布

4、set mapred.max.split.size; 最大split大小

5、set mapred.min.split.size.per.node; 一个节点上最小的split大小

6、set mapred.min.split.size.per.rack; 一个机架上最小的split大小

例如：查询相关目录下有12个input file，每个input file的大小都在100M左右，block分布如下图：

情况一：参数设置如下：set mapred.max.split.size=256000000；

set mapred.min.split.size.per.node=64000000;

set mapred.min.split.size.per.rack=64000000;

第一步：遍历node，嵌套遍历block，当block的累加值大于max.split.size时，创建一个split，小于时，但如果大于min.size.per.node，创建一个新的split，小于时暂存block，继续下一个node。这个遍历过程每个node最多生成一个split，为提高并发度，让split尽量分布到不同的node上。

node I 有三个block（A、B、E）累加值300M > 256M, 会新建一个split。

node II 只有一个C block < 256M，会进行暂存

第二步：遍历rack，嵌套遍历block，对暂存的block进行分割，当block的累加值大于max.split.size时，创建一个新的split，小于时，但如果大于min.size.per.rack，创建一个新的split，小于时暂存block，继续下一个rack

rack I 三个block（C、D、G）累加值300M > 256M,会新建一个split，继续到下一个rack

第三步：对垮rack最后溢出的block处理，当block累加值大于max.split.size时创建新的split，循环处理，最后剩的数据创建一个split

一路狂飚飚

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hive合并小文件，减小map数

Hive合并小文件，减小map数配置文件中设置的参数的含义1.限制Map，Reduce数map/reduce限制Map，Reduce数mapset mapreduce.tasktracker.map.tasks.maximum=30; --每个nodemanager节点上可运行的最大map任务数，默认值2，可根据实际值调整为10~100；reduce...
复制链接

扫一扫

专栏目录