HiveSQL优化点之多次insert单次扫描表

比如将一张表的数据多次查询出来装载到另外一张表中。如表table1是一个分区表,分区字段为dt,如果需要在表中查询多个特定的分区日期数据,并将数据装载到多个不同的表中或同一张表的不同分区中。一般会写成如下:

INSERT INTO table2 SELECT * FROM table1 WHERE dt ='2020-12-25';
INSERT INTO table3 SELECT * FROM table1 WHERE dt ='2020-12-26';
INSERT INTO table4 SELECT * FROM table1 WHERE dt ='2020-12-27';
INSERT INTO table5 SELECT * FROM table1 WHERE dt ='2020-12-28';
……

在以上查询中,Hive将扫描表多次,为了避免这种情况,我们可以使用下面的方式:

FROM table1
INSERT INTO table2 SELECT * WHERE dt ='2020-12-25'
INSERT INTO table3 SELECT * WHERE dt ='2020-12-26'
INSERT INTO table4 SELECT * WHERE dt ='2020-12-27'
INSERT INTO table5 SELECT * WHERE dt ='2020-12-28';

这样可以确保只对 table1表执行一次扫描,从而可以大大减少执行的时间和资源。

Hive SQL的优化包括数据过滤、列选择和分桶连接等方面。 首先,在Hive SQL中进行数据过滤时,应尽早进行过滤操作,这样可以减少后续处理的数据量。同时,在查询中仅选择所需要的列,可以减少不必要的数据传输和存储,从而提高查询效率。 其次,Hive是基于Hadoop的数据仓库工具,可以将存储在HDFS上的结构化文件映射为关系型数据库,并提供简单的SQL查询功能。在Hive SQL的优化中,可以免除了分库分给查询处理带来的麻烦。 另外,分桶连接是Hive的一种优化方式。通过在建时指定clustered by (col_name,xxx) into number_buckets buckets关键字,可以对数据进行hash分区。当连接的两个的join key正好是bucket column时,可以通过设置hive.optimize.bucketmapjoin为true来执行优化,提高连接操作的效率。 综上所述,Hive SQL的优化包括数据过滤、列选择和分桶连接等方面,通过这些优化可以提高查询速度和节约资源。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [浅谈Hive SQL的优化](https://blog.csdn.net/lverson116/article/details/122981240)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [Hive调优策略之SQL优化](https://blog.csdn.net/weixin_52851967/article/details/127371719)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值