Hive-企业级调优

最新推荐文章于 2023-06-12 09:49:49 发布

青岛欢迎您

最新推荐文章于 2023-06-12 09:49:49 发布

阅读量291

点赞数

分类专栏：大数据文章标签： Hive-企业级调优 hive

本文链接：https://blog.csdn.net/liberty12345678/article/details/84823783

版权

大数据专栏收录该内容

34 篇文章 0 订阅

订阅专栏

1、Fetch 抓取

Fetch 抓取是指Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如： SELECT * FROM employees;在这种情况下，Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。

在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,在全局查找、字段查找、limit 查找等都不走 mapreduce。

案例实操：

1）把 hive.fetch.task.conversion 设置成 none，然后执行查询语句，都会执行 mapreduce 程序。

2）把 hive.fetch.task.conversion 设置成 more，然后执行查询语句，都不会执行 mapreduce 程序。

一般情况下使用默认值more。

2、本地模式

大多数的 Hadoop Job 是需要 Hadoop 提供的完整的可扩展性来处理大数据集的。不过，有时 Hive 的输入数据量是非常小的。在这种情况下，为查询触发执行任务时消耗可能会比实际 job 的执行时间要多的多。对于大多数这种情况，Hive 可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。

用户可以通过设置 hive.exec.mode.local.auto 的值为 true，来让 Hive 在适当的时候自动启动这个优化。

案例实操：

1）开启本地模式，并执行查询语句

2）关闭本地模式，并执行查询语句

3、表的优化

3.1、小表、大表 Join

新版的 hive 已经对小表 JOIN 大表和大表 JOIN 小表进行了优化。小表放在左边和右边已经没有明显区别。

3.2、大表 Join 大表

空 KEY 过滤

有时 join 超时是因为某些 key 对应的数据太多，而相同 key 对应的数据都会发送到相同的 reducer 上，从而导致内存不够。此时我们应该仔细分析这些异常的 key，很多情况下，这些 key 对应的数据是异常数据，我们需要在 SQL 语句中进行过滤。例如 key 对应的字段为空，操作如下：

insert overwrite table jointable select n.* from (select * from nullidtable where id is not null ) n left join ori o on n.id = o.id;

3.3、MapJoin

MapJoin 把小表全部加载到内存在 map 端进行 join，避免 reducer 处理。如果不指定 MapJoin 或者不符合 MapJoin 的条件，那么 Hive 解析器会将 Join 操作转换成 Common Join，即：在 Reduce 阶段完成 join。容易发生数据倾斜。

MapJoin默认是开启状态:

set hive.auto.convert.join = true; 默认为 true

大表小表的阀值设置（默认 25M 一下认为是小表）:

set hive.mapjoin.smalltable.filesize=25000000;

3.4、Group By

默认情况下，Map 阶段同一 Key 数据分发给一个 reduce，当一个 key 数据过大时就倾斜了。

并不是所有的聚合操作都需要在 Reduce 端完成，很多聚合操作都可以先在 Map 端进行部分聚合，最后在 Reduce 端得出最终结果。

1）开启 Map 端聚合参数设置

（1）是否在 Map 端进行聚合，默认为 True hive.map.aggr = true

（2）在 Map 端进行聚合操作的条目数目 hive.groupby.mapaggr.checkinterval = 100000

（3）有数据倾斜的时候进行负载均衡（默认是 false） hive.groupby.skewindata = true

3.5、Count(Distinct) 去重统计

数据量小的时候无所谓，数据量大的情况下，由于 COUNT DISTINCT 操作需要用一个 Reduce Task 来完成，这一个 Reduce 需要处理的数据量太大，就会导致整个 Job 很难完成，一般 COUNT DISTINCT 使用先 GROUP BY 再 COUNT 的方式替换：

（1）、设置 5 个 reduce 个数

set mapreduce.job.reduces = 5;

（2）、采用 GROUP by 去重 id

hive (default)> select count(id) from (select id from bigtable group by id) a;

虽然会多用一个 Job 来完成，但在数据量大的情况下，这个绝对是值得的。

4、数据倾斜

4.1、合理设置 Map 数

1）通常情况下，作业会通过 input 的目录产生一个或者多个 map 任务。

主要的决定因素有：input 的文件总个数，input 的文件大小，集群设置的文件块大小。

2）是不是 map 数越多越好？

答案是否定的。如果一个任务有很多小文件（远远小于块大小 128m），则每个小文件也会被当做一个块，用一个 map 任务来完成，而一个 map 任务启动和初始化的时间远远大于逻辑处理的时间，就会造成很大的资源浪费。而且，同时可执行的 map 数是受限的。

4.2、小文件进行合并

在 map 执行前合并小文件，减少 map 数：CombineHiveInputFormat 具有对小文件进行合并的功能（系统默认的格式）

4.3、复杂文件增加 Map 数

当 input 的文件都很大，任务逻辑复杂，map 执行非常慢的时候，可以考虑增加 Map 数，来使得每个 map 处理的数据量减少，从而提高任务的执行效率。增加 map 的方法为：根据 computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M 公式，调整 maxSize 最大值。让 maxSize 最大值低于 blocksize 就可以增加 map 的个数。

4.4、合理设置 Reduce 数

在 hadoop 的 mapred-default.xml 文件中修改设置每个 job 的 Reduce 个数

set mapreduce.job.reduces = 15;

reduce 个数并不是越多越好？

1）过多的启动和初始化 reduce 也会消耗时间和资源；

2）另外，有多少个 reduce，就会有多少个输出文件，如果生成了很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；

5、并行执行

Hive 一次只会执行一个阶段。不过，某个特定的 job 可能包含众多的阶段，而这些阶段可能并非完全互相依赖的，也就是说有些阶段是可以并行执行的，这样可能使得整个 job 的执行时间缩短。通过设置参数 hive.exec.parallel 值为 true，就可以开启并发执行。不过，在共享集群中，需要注意下，如果 job 中并行阶段增多，那么集群利用率就会增加。

set hive.exec.parallel=true; //打开任务并行执行

set hive.exec.parallel.thread.number=16; //同一个 sql 允许最大并行度，默认为 8。

注：在系统资源比较空闲的时候才有优势，否则，没资源，并行也起不来。

6、严格模式

Hive 提供了一个严格模式，可以防止用户执行那些可能意向不到的不好的影响的查询。

通过设置属性 hive.mapred.mode 值为默认是非严格模式 nonstrict 。

开启严格模式可以禁止 3 种类型的查询：

1）对于分区表，除非 where 语句中含有分区字段过滤条件来限制范围，否则不允许执行。

2）对于使用了 order by 语句的查询，要求必须使用 limit 语句。

3）限制笛卡尔积的查询。

7、JVM 重用

JVM 重用是 Hadoop 调优参数的内容，其对 Hive 的性能具有非常大的影响，特别是对于很难避免小文件的场景或 task 特别多的场景，这类场景大多数执行时间都很短。

Hadoop 的默认配置通常是使用派生 JVM 来执行 map 和 Reduce 任务的。这时 JVM 的启动过程可能会造成相当大的开销，尤其是执行的 job包含有成百上千task任务的情况。JVM 重用可以使得 JVM 实例在同一个 job 中重新使用 N 次。

N 的值可以在 Hadoop 的 mapred-site.xml 文件中进行配置。通常在 10-20 之间

8、推测执行

Hadoop 采用了推测执行（Speculative Execution）机制，它根据一定的法则推测出“拖后腿”的任务，并为这样的任务启动一个备份任务，让该任务与原始任务同时处理同一份数据，并最终选用最先成功运行完成任务的计算结果作为最终结果。

9、压缩

略

10、执行计划（Explain）

1）基本语法

EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query

2）案例实操

（1）查看下面这条语句的执行计划

hive (default)> explain select * from emp;

（2）查看详细执行计划

hive (default)> explain extended select * from emp;

青岛欢迎您

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive-企业级调优

1、Fetch 抓取Fetch 抓取是指Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如： SELECT * FROM employees;在这种情况下，Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion ...
复制链接

扫一扫