在Hive使用中,数据倾斜以及解决方案,是老生常谈的问题,一直没有时间去全面的了解;最近花了一段时间,总结了hive性能优化,尤其是数据倾斜的优化如下。希望能对Hive感兴趣/想了解的同学有所帮助。 同时也希望有发现内容不正确或者有疑问的地方,望指明,一起探讨,学习,进步。
Hive性能优化及数据倾斜
性能低下的根源
一句话总结Hive
Hive 是由 Facebook 实现并开源的、基于 Hadoop 的一个数据仓库工具。它可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能;其底层数据是存储在 HDFS 上,Hive的本质是将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离线的批量数据计算。
性能低下的根源
正如上所说,Hive的本质是将 SQL 语句转换为 MapReduce 任务运行,底层数据是存储在 HDFS 上;那么Hive性能低下的原因就是为 MapReduce,尤其是shuffle阶段的parition和sort 大量计算引起的计算耗时和 HDFS存储Hive数据的空间不合理。关于MapReduce,可以参考MapReduce 心脏命脉;HDFS,可以参考HDFS体系结构,了解它们的原理。
查看执行性能 EXPLAIN
基本语法:
EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query
例如:
explain select userid,avg(paymoney) from consume group by userid
结果:
Explain
STAGE DEPENDENCIES:
Stage-1 is a root stage
Stage-0 depends on stages: Stage-1
STAGE PLANS:
Stage: Stage-1
Map Reduce
Map Operator Tree:
TableScan
alias: consume
Statistics: Num rows: 29110 Data size: 349321 Basic stats: COMPLETE Column stats: NONE
Select Operator
expressions: userid (type: bigint), paymoney (type: float)
outputColumnNames: userid, paymoney
Statistics: Num rows: 29110 Data size: 349321 Basic stats: COMPLETE Column stats: NONE
Group By Operator
aggregations: avg(paymoney)
keys: userid (type: bigint)
mode: hash
outputColumnNames: _col0, _col1
Statistics: Num rows: 29110 Data size: 349321 Basic stats: COMPLETE Column stats: NONE
Reduce Output Operator
key expressions: _col0 (type: bigint)
sort order: +
Map-reduce partition columns: _col0 (type: bigint)
Statistics: Num rows: 29110 Data size: 349321 Basic stats: COMPLETE Column stats: NONE
value expressions: _col1 (type: struct<count:bigint,sum:double,input:float>)
Reduce Operator Tree:
Group By Operator
aggregations: avg(VALUE._col0)
keys: KEY._col0 (type: bigint)
mode: mergepartial
outputColumnNames: _col0, _col1
Statistics: Num rows: 14555 Data size: 174660 Basic stats: COMPLETE Column stats: NONE
File Output Operator
compressed: false
Statistics: Num rows: 14555 Data size: 174660 Basic stats: COMPLETE Column stats: NONE
table:
input format: org.apache.hadoop.mapred.TextInputFormat
output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
Stage: Stage-0
Fetch Operator
limit: -1
Processor Tree:
ListSink
性能优化
开启Fetch 抓取(默认已开启)
Fetch 抓取是指, Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如: SELECT * FROM employees;在这种情况下, Hive 可以简单地读取 employee对应的存储目录下的文件, 然后输出查询结果到控制台。
在hive-default.xml.template
文件中 hive.fetch.task.conversion
默认是 more(老版本hive 0.11.0
默认是 minimal), 在全局查找、 字段查找、limit 查找等都不走 mapreduce,把 hive.fetch.task.conversion
设置成 none, 然后执行查询语句, 全局查找、 字段查找、limit 查找等都会执行mapreduce 程序。
如下图所示:很明显的可以看出,开启和关闭Fetch 抓取时查询时间差距达几百倍(红框所示),并且关闭Fetch 抓取时查询启动了MapReduce工作(绿框所示)。
本地模式(默认未开启)
大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。 不过, 有时 Hive 的输入数据量是非常小的。 在这种情况下, 为查询触发执行任务时消耗可能会比实际 job 的执行时间要多的多。对于大多数这种情况, Hive可以通过本地模式在单台机器上处理所有的任务。 对于小数据集, 执行时间可以明显被缩短。
用户可以通过设置 hive.exec.mode.local.auto
的值为 true, 来让 Hive 在适当的时候自动启动这个优化。
//开启本地 mr
set hive.exec.mode.local.auto=true;
//设置 local mr 的最大输入数据量, 当输入数据量小于这个值时采用 local mr 的方式, 默认为 134217728, 即 128M
set hive.exec.mode.local.auto.inputbytes.max=50000000;
//设置 local mr 的最大输入文件个数, 当输入文件个数小于这个值时采用local mr 的方式, 默认为 4
set hive.exec.mode.local.auto.input.files.max=8;
开启和关闭本地模式对比如下:
#1.开启本地模式, 并执行查询语句
hive (default)> set hive.exec.mode.local.auto=true;
hive (default)> select * from emp cluster by deptno;
Time taken: 5.788 seconds, Fetched: 14 row(s)
#2.关闭本地模式, 并执行查询语句
hive (default)