【Hive】 HDFS小文件优化三重奏

最新推荐文章于 2024-04-14 14:07:53 发布

phol

最新推荐文章于 2024-04-14 14:07:53 发布

阅读量272

点赞数

分类专栏：大数据--HIVE 文章标签： hive 大数据 hadoop

本文链接：https://blog.csdn.net/a13555856912/article/details/107707064

版权

大数据--HIVE 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

小文件指的是hdfs文件远远小于hdfs block块的大小，比如默认的block大小是128m，文件size只有几k。当这种类型的文件又很多的情况下，就会造成在spark任务处理过程中map的任务数过多（我们都知道map数量的决定因素之一是一个hdfs文件对应一个map）。一个map任务启动和初始化的时间远远大于逻辑处理的时间，就会造成很大的资源浪费。

如果小文件从业务上无法从源头减少，那么可以参考如下几类优化方式：

1、设置JVM重用次数
hadoop 通常默认配置是使用派生JVM来执行map和reduce任务，这时jvm的启动过程会造成相当大的资源开销。小文件对应的多个map任务也同样会造成独立JVM的启动的资源开销。由于map任务计算时间远远小于JVM启动时间，则可以考虑使用共享JVM资源。
有两种方式：
1.1、mapreduce-site.xml中配置
mapreduce.job.jvm.numtasks = 10
1.2、执行HQL语句前设置
set mapred.job.reuse.jvm.num.tasks=10
当然这种配置也有一定的弊端，比如在带有数据倾斜的任务中，reduce阶段中某个reduce任务一直在执行，其他任务已经执行完了，但是JVM进程还是要继续等待，直到整个JOB任务执行完毕。

2、减少map数

在执行task之前预先设定map，reduce的数量，可以使本应该在多个任务中执行的数据进行合并。
---- 设置hive input 文件格式类型，将小文件进行合并，从而减少map数量
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
---- 每个task处理输入文件的最大Size
  set mapred.max.split.size=536870912(默认256000000)
---- 每台计算节点中每个task处理输入文件的最小Size
  set mapred.min.split.size.per.node=536870912(默认1)
---- 每个机架中每个task处理输入文件的最小Size
  set mapred.min.split.size.per.rack=536870912(默认1)
---- 设置map 任务数量
set mapred.map.tasks=6(默认2)
具体值根据业务实际场景计算：goalsize = min(输入文件总Size/预置map数量,dfs blockSize)。
按照goalSize计算文件，切分后每个map计算的Size量越平均越好。

3、使用hadoop的archive归档

---- 用来控制归档是否可用
set hive.archive.enabled=true （默认false）