【硬刚Hive】Hive面试题(8)Hive调优全方位指南(三)

王知无(import_bigdata)

已于 2022-07-15 22:02:47 修改

阅读量410

点赞数

分类专栏： Hive系统性学习专栏文章标签： hive big data

于 2021-09-10 22:27:43 首次发布

原创文章禁止转载。否则追究法律后果。

本文链接：https://blog.csdn.net/u013411339/article/details/120230726

版权

Hive系统性学习专栏同时被 2 个专栏收录

76 篇文章 16 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

大数据成神之路

254 篇文章 157 订阅

订阅专栏

本文详细介绍了Hive的架构层面优化，包括启用本地抓取、本地执行优化、JVM重用、并行执行和推测执行等策略。同时，针对数据倾斜问题，提出了不同数据类型关联、空值过滤、group by和map join的解决方案。最后，给出了日志表和用户表链接以及位图法求连续七天发朋友圈用户的调优案例。

摘要由CSDN通过智能技术生成

3、Hive架构层面

3.1 启用本地抓取（默认开启）

Hive 的某些 SQL 语句需要转换成 MapReduce 的操作，某些 SQL 语句就不需要转换成 MapReduce 操作，但是同学们需要注意，理论上来说，所有的 SQL 语句都需要转换成 MapReduce 操作，只不过Hive 在转换 SQL 语句的过程中会做部分优化，使某些简单的操作不再需要转换成 MapReduce，例如：

1、只是 select * 的时候
2、where 条件针对分区字段进行筛选过滤时
3、带有 limit 分支语句时

3.2 本地执行优化

Hive 在集群上查询时，默认是在集群上多台机器上运行，需要多个机器进行协调运行，这种方式很好的解决了大数据量的查询问题。但是在 Hive 查询处理的数据量比较小的时候，其实没有必要启动分布式模式去执行，因为以分布式方式执行设计到跨网络传输、多节点协调等，并且消耗资源。对于小数据集，可以通过本地模式，在单台机器上处理所有任务，执行时间明显被缩短。

三个参数：

## 打开hive自动判断是否启动本地模式的开关
set hive.exec.mode.local.auto=true;
## map任务数最大值，不启

了解本专栏

超级会员免费看

王知无(import_bigdata)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【硬刚Hive】Hive面试题(8)Hive调优全方位指南(三)

欢迎关注博客主页：微信搜：import_bigdata，大数据领域硬核原创作者_王知无(import_bigdata)_CSDN博客欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于 CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hive部分补充。3、Hive架构层面3.1 启用本地抓取（默认开启）Hive 的某些 SQL 语句需要转换成 MapReduce 的操作.
复制链接

扫一扫