hive的相关优化

最新推荐文章于 2024-07-14 10:03:53 发布

非本人文章

最新推荐文章于 2024-07-14 10:03:53 发布

阅读量1.4k

点赞数

分类专栏： hive 文章标签： hive sql

本文链接：https://blog.csdn.net/onlybymyself/article/details/123172116

版权

hive 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文介绍了Hive的优化方法，包括列裁剪和分区裁剪以减少不必要的数据处理，尽早过滤数据以减小数据量，有效利用multi-insert提升效率，正确使用with as提高可读性，并探讨了order by、distribute by、sort by和cluster by的排序策略，旨在优化Hive查询性能。

摘要由CSDN通过智能技术生成

1、列裁剪、分区裁剪

在查询的过程中减少不必要的分区和列，例如：

select * from shuidi_dwb.dwb_cf_case_info_full_d

应改为：

select case_id,ckr_id from shuidi_dwb.dwb_cf_case_info_full_d where dt='2019-08-28';

2、尽早尽量过滤数据，减少每个阶段的数据量

在多次关联的时候，尽量在每个自查询中（关联前）加上筛选(where)条件以减少下阶段job的数据量。

优化前：SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)
WHERE a.ds='2009-07-07' AND b.ds='2009-07-07'

优化后：SELECT a.val, b.val FROM
(select key,val from a where a.ds=‘2009-07-07’ ) x LEFT OUTER JOIN
(select key,val from b where b.ds=‘2009-07-07’ ) y ON x.key=y.key