hive 优化的几种方式（转）

小董的数据库进阶之路

于 2022-09-01 17:45:26 发布

阅读量138

点赞数

分类专栏： hadoop 文章标签： hive hadoop 大数据

本文链接：https://blog.csdn.net/u010438126/article/details/126648342

版权

hadoop 专栏收录该内容

29 篇文章 3 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Hive的多种优化方法，包括随机抓取策略、本地运行模式、并行计算、严格模式、Hive排序、数据倾斜处理、合并小文件、Map和Reduce数量控制以及JVM重用等，旨在提升大数据查询效率。

摘要由CSDN通过智能技术生成

转：https://www.cnblogs.com/liudehaos/p/16405305.html

1.1 hive的随机抓取策略

理论上来说，Hive中的所有sql都需要进行mapreduce，但是hive的抓取策略帮我们省略掉了这个过程，把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置，select字段名也是需要进行mapreduce的过程，默认是more)

Fetch抓取的模式
可以通过 set hive.fetch.task.conversion查看，有以下3种模式：

none：所有涉及hdfs的读取查询都走mapreduce任务；
mininal：在进行简单的select *，简单的过滤或涉及分区字段的过滤时走mr；
more:在mininal模式的基础上，增加了针对查询语句字段进行一些别名的计算操作。
以下HQL，mininal模式与more模式下都不会走mr任务:
SELECT
    sale_ord_id,
    store_id
FROM

了解本专栏