Hive 优化-限制大作业的提交

最新推荐文章于 2023-06-17 15:37:19 发布

djd已经存在

最新推荐文章于 2023-06-17 15:37:19 发布

阅读量1.3k

点赞数

分类专栏： hive学习

本文链接：https://blog.csdn.net/djd1234567/article/details/52248891

版权

18 篇文章 0 订阅

订阅专栏

本文介绍了如何通过配置Hive参数避免同事在执行SQL查询时因未指定partition字段导致的大数据量扫描，从而影响Hadoop集群性能。通过在hive-site.xml中设置特定配置，可以强制要求在SQL中指定partition条件，防止不正确的查询提交。

摘要由CSDN通过智能技术生成

最近有些同事些sql进行查询时，sql语句里不指定partition字段，这样直接造成hive生成Hadoop的MapReduce任务时查询的数据量巨大，从而影响整个集群的性能。经研究可以通过配置Hive参数来预防此类错误，从而达到优化的目的。

在hive-site.xml中添加以下配置：

<property>
<name>hive.mapred.mode</name>                                                  
<value>strict</value>
</property>

这样，在提交类似一下SQL（where中不指定partition条件）时，将会抛出错误而不执行该sql：

hive> select *from access_raw limit 10;
FAILED: Error in semantic analysis: No partition predicate found for Alias "access_raw" Table "access_raw"

而正确书写SQL的方法为：

hive> select *from access_raw where log_date='2012-08-10' limit 10;

这样，就对sql语句进行了过滤。

关注