Hive优化的十条详细策略（上）

最新推荐文章于 2022-08-06 15:07:29 发布

Forever_ck

最新推荐文章于 2022-08-06 15:07:29 发布

阅读量637

点赞数 1

分类专栏： Hive 文章标签：大数据 Hive优化

本文链接：https://blog.csdn.net/Forever_ck/article/details/85777938

版权

一、Fetch抓取

Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。

 在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive
默认是 minimal，该属性修改为 more  以后，在全局查找、字段查找、limit  查找等都不走
mapreduce。

配置文件如下：
在这里插入图片描述
案例一：
1）把 hive.fetch.task.conversion 设置成 none，然后执行查询语句，都会执行 mapreduce程序。

hive (default)> set hive.fetch.task.conversion=none; 
hive (default)> select * from emp;
hive (default)> select ename from emp;
hive (default)> select ename from emp limit 3;

2）把 hive.fetch.task.conversion 设置成 more，然后执行查询语句，如下查询方式都不会执行 mapreduce 程序。

hive (default)> set hive.fetch.task.conversion=more; 
hive (default)> select * from emp;
hive (default)> select ename from emp;
hive (default)> select ename from emp limit 3;

二、本地模式

大多数的Hadoop Job 是需要 Hadoop 提供的完整的可扩展性来处理大数据集的。不过，有时 Hive 的输入数据量是非常小的。在这种情况下，为查询触发执行任务时消耗可能会比实际 job 的执行时间要多的多。对于大多数这种情况，Hive 可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。
用户可以通过设置 hive.exec.mode.local.auto 的值为 true，来让 Hive 在适当的时候自动启动这个优化。
在这里插入图片描述
案例二：
1）开启本地模式，并执行查询语句

hive (default)> set hive.exec.mode.local.auto=true; 
hive (default)> select * from emp cluster by deptno;
 Time taken: 1.328 seconds, Fetched: 14 row(s)

2）关闭本地模式，并执行查询语句

hive (default)> set hive.exec.mode.local.auto=false; 
hive (default)> select * from emp cluster by deptno; 
Time taken: 20.09 seconds, Fetched: 14 row(s)

三、表的优化

3.1 小表、大表 Join
将 key 相对分散，并且数据量小的表放在 join 的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用 Group 让小的维度表（1000 条以下的记录条数）

最低0.47元/天解锁文章

Forever_ck

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hive优化的十条详细策略（上）

一、Fetch抓取Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limit 查找等都不走mapreduce。配...
复制链接

扫一扫