地表最强系列之Hive的性能优化

Hive性能调优工具

  • ANALYZE:分析表数据,用于执行计划选择的参考
    收集表的统计信息,如行数、最大值等
    使用时调用该信息加速查询
    语法:
ANALYZE TABLE employee COMPUTE STATISTICS; 
ANALYZE TABLE employee_partitioned 
PARTITION(year=2014, month=12) COMPUTE STATISTICS;
ANALYZE TABLE employee_id COMPUTE STATISTICS 
FOR COLUMNS employee_id;

Hive的优化设计

  1. 使用分区表、桶表
  2. 使用索引
  3. 使用适当的文件格式,如orc, avro, parquet
  4. 用适当的压缩格式,如snappy
  5. 考虑数据本地化 - 增加一些副本
  6. 避免小文件
  7. 使用Tez引擎代替MapReduce
  8. 使用Hive LLAP(在内存中读取缓存)
  9. 考虑在不需要时关闭并发

Job的优化

  • 本地模式运行
    1.Hive支持将作业自动转换为本地模式运行
    当要处理的数据很小时,完全分布式模式的启动时间比作业
    处理时间要长
-- 通过以下设置开启本地模式
SET hive.exec.mode.local.auto=true; --default false 
SET hive.exec.mode.local.auto.inputbytes.max=50000000; 
SET hive.exec.mode.local.auto.input.files.max=5; --default 4

2.Job必须满足以下条件才能在本地模式下运行
Job总输入大小小于 hive.exec.mode.local.auto. inputbytes.max
map任务总数小于 hive.exec.mode.local.auto. input.files.max
所需的Reduce任务总数为1或0

  • JVM重用
    通过JVM重用减少JVM启动的消耗
    默认每个Map或Reduce启动一个新的JVM
    Map或Reduce运行时间很短时,JVM启动过程占很大开销
    通过共享JVM来重用JVM,以串行方式运行MapReduce Job
    适用于同一个Job中的Map或Reduce任务
    对于不同Job的任务,总是在独立的JVM中运行
-- 通过以下设置开启JVM重用
set mapred.job.reuse.jvm.num.tasks = 5;  -- 默认值为1
  • 并行执行
    1.并行执行可提高集群利用率

Hive查询通常被转换成许多按默认顺序执行的阶段
这些阶段并不总是相互依赖的
它们可以并行运行以节省总体作业运行时间
如果集群的利用率已经很高,并行执行帮助不大

-- 通过以下设置开启并行执行
SET hive.exec.parallel=true;  -- default false 
SET hive.exec.parallel.thread.number=16;  -- default 8,定义并行运行的最大数量

查询优化

  1. 自动启动Map端Join
  2. 防止数据倾斜
 set hive.optimize.skewjoin=true;
  1. 启用CBO
set hive.cbo.enable=true; 
set hive.compute.query.using.stats=true; 
set hive.stats.fetch.column.stats=true; 
set hive.stats.fetch.partition.stats=true;
  1. 启动Vectorization(矢量化)
set hive.vectorized.execution.enabled = true; 
set hive.vectorized.execution.reduce.enabled = true;
  1. 使用CTE、临时表、窗口函数等正确的编码约定

数据倾斜

这个是转发的别人的帖子

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值