hive调优方式

最新推荐文章于 2024-05-15 23:24:14 发布

搬砖党弟中弟中弟

最新推荐文章于 2024-05-15 23:24:14 发布

阅读量3.6k

点赞数 2

分类专栏：调优文章标签： hive

本文链接：https://blog.csdn.net/Naerdoy/article/details/123815021

版权

本文介绍了多种Hive调优方法，包括fetch任务转换、本地模式设置、表优化（如小表JOIN大表、大表JOIN大表策略）、GROUP BY调优、COUNT DISTINCT优化、避免笛卡尔积、使用分区裁剪、动态分区调整、设置小文件合并、开启并发执行、启用JVM重用、关闭推测执行以及选择压缩和文件存储格式。通过这些策略，可以显著提升Hive查询效率和性能。

摘要由CSDN通过智能技术生成

1.fetch（hive可以避免MapRedice）对于hive可以简单地读取employee对应的储存目录下的文件，然后输出查询结果到控制台，修改hive.fetch.task.conversion的参数为more即可

2.本地模式设置数据出入量，设置local mr的最大输入文件个数，当输入文件滆湖小于这个值时采用local mr的方式，默认为4

3.表的优化

1.小表join大表

将key相对分散,并且数据量小的表join的左边,这个可以有效减少内存溢出错误发生的几率,在进一步可以使用group让小的维度表(1000条以下的记录条数)先进内存,在map端完成reduce

mapjoin(map端执行join）

启动方式一：(自动判断）

set.hive.auto.convert.join=true;

hive.mapjoin.smalltable.filesize 默认值是25mb

小表小于25mb自动启动mapjoin

启动方式二：

最低0.47元/天解锁文章

搬砖党弟中弟中弟

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
hive调优方式

1.fetch（hive可以避免MapRedice）对于hive可以简单地读取employee对应的储存目录下的文件，然后输出查询结果到控制台，修改hive.fetch.task.conversion的参数为more即可2.本地模式设置数据出入量，设置local mr的最大输入文件个数，当输入文件滆湖小于这个值时采用local mr的方式，默认为43.表的优化1.小表join大表将key相对分散,并且数据量小的表join的左边,这个可以有效减少内存溢出错误发生的几率,在进一步可以使用gr.
复制链接

扫一扫