1、tez
-- 小文件相关 set hive.merge.mapfiles= true ; set hive.merge.tezfiles= true ; set hive.merge.mapredfiles= true ; -- 控制小文件合并后文件大小 set hive.merge. size .per.task=268435456; set hive.merge.smallfiles.avgsize=134217728; -- hive控制map数量(tez应该不生效了) set mapred. max .split. size =536870912; set mapred. min .split. size .per.node=536870912; set mapred. min .split. size .per.rack=536870912; set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; -- 单个reduce处理的数据量 控制reduce数量 set hive. exec .reducers.bytes.per.reducer=536870912; -- 动态预估调整reduce的个数 set hive.tez.auto.reducer.parallelism= true ; -- tez控制map数量 set tez. grouping . min - size =536870912; set tez. grouping . max - size =2147483648; -- tez container内存大小 set hive.tez.container. size =2048; -- Hive内存Map Join参数设置,默认值:100,不能超过可用内存,建议值:40%*hive.tez.container.size,一般不超过2G; set tez.runtime.io.sort.mb=100; |
2、spark
-- hive 动态分区 set hive. exec . dynamic .partition= true ; -- 非严格模式 set hive. exec . dynamic .partition.mode=nonstrict; -- NodeManager中一个长期运行的辅助服务,用于提升Shuffle计算性能。 set spark.shuffle.service.enabled= true ; -- 开启动态资源配置 set spark.dynamicAllocation.enabled= true ; -- 动态分配最小executor个数 set spark.dynamicAllocation.minExecutors=30; -- 动态分配最大executor个数 set spark.dynamicAllocation.maxExecutors=300; -- executor核数 set spark.executor.cores=2; -- executor内存大小 set spark.executor.memory=3g; -- 控制输入文件块的大小,影响并行度 set spark.hadoop.mapreduce.input.fileinputformat.split.minsize=33554432; set spark.hadoop.mapreduce.input.fileinputformat.split.maxsize=67108864; -- shuffle并行度 set spark.sql.shuffle.partitions=600; -- 开启 spark 的自适应执行 set spark.sql.adaptive.enabled= true ; -- 开启 spark 的自适应执行后,该参数控制shuffle 阶段的平均输入数据大小,防止产生过多的task。 set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=128000000; -- 开启推测执行 set spark.speculation= true ; -- 任务延迟的比例,比如当70%的task都完成,那么取他们运行时间的中位数跟还未执行完的任务作对比。如果超过1.2倍,则开启推测执行。 set spark.speculation.quantile=0.7 set spark.speculation.multiplier=1.2; |
spark小文件解决思路:
利用动态分区配合distribute by语句,解决spark小文件问题。需要预估分区文件数据大小。
如果数据量不是很大 单分区就合并成一个文件 ,比如,用distribute by p_dt,p_hr 然后动态分区 就不用额外单独开小文件合并的任务了 。
如果单分区文件太大 可以类似这种方式控制文件数量 distribute by hash(uid)%10。