【Hive】 HDFS小文件优化三重奏

       小文件指的是hdfs文件远远小于hdfs block块的大小,比如默认的block大小是128m,文件size只有几k。当这种类型的文件又很多的情况下,就会造成在spark任务处理过程中map的任务数过多(我们都知道map数量的决定因素之一是一个hdfs文件对应一个map)。一个map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。

       如果小文件从业务上无法从源头减少,那么可以参考如下几类优化方式:

1、设置JVM重用次数
      hadoop 通常默认配置是使用派生JVM来执行map和reduce任务,这时jvm的启动过程会造成相当大的资源开销。小文件对应的多个map任务也同样会造成独立JVM的启动的资源开销。由于map任务计算时间远远小于JVM启动时间,则可以考虑使用共享JVM资源。
      有两种方式:
      1.1、mapreduce-site.xml中配置
      mapreduce.job.jvm.numtasks = 10
      1.2、执行HQL语句前设置
      set mapred.job.reuse.jvm.num.tasks=10
      当然这种配置也有一定的弊端,比如在带有数据倾斜的任务中,reduce阶段中某个reduce任务一直在执行,其他任务已经执行完了,但是JVM进程还是要继续等待,直到整个JOB任务执行完毕。

2、减少map数

      在执行task之前预先设定map,reduce的数量,可以使本应该在多个任务中执行的数据进行合并。
      ---- 设置hive input 文件格式类型,将小文件进行合并,从而减少map数量
      set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
      ---- 每个task处理输入文件的最大Size
      set mapred.max.split.size=536870912(默认256000000)
      ---- 每台计算节点中每个task处理输入文件的最小Size
      set mapred.min.split.size.per.node=536870912(默认1)
      ---- 每个机架中每个task处理输入文件的最小Size
​​​​​​      set mapred.min.split.size.per.rack=536870912(默认1)
      ---- 设置map 任务数量
      set mapred.map.tasks=6(默认2)
      具体值根据业务实际场景计算:goalsize = min(输入文件总Size/预置map数量,dfs blockSize)。
      按照goalSize计算文件,切分后每个map计算的Size量越平均越好。

3、使用hadoop的archive归档

      ---- 用来控制归档是否可用
      set hive.archive.enabled=true (默认false)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值