比如将一张表的数据多次查询出来装载到另外一张表中。如表table1是一个分区表,分区字段为dt,如果需要在表中查询多个特定的分区日期数据,并将数据装载到多个不同的表中或同一张表的不同分区中。一般会写成如下:
INSERT INTO table2 SELECT * FROM table1 WHERE dt ='2020-12-25';
INSERT INTO table3 SELECT * FROM table1 WHERE dt ='2020-12-26';
INSERT INTO table4 SELECT * FROM table1 WHERE dt ='2020-12-27';
INSERT INTO table5 SELECT * FROM table1 WHERE dt ='2020-12-28';
……
在以上查询中,Hive将扫描表多次,为了避免这种情况,我们可以使用下面的方式:
FROM table1
INSERT INTO table2 SELECT * WHERE dt ='2020-12-25'
INSERT INTO table3 SELECT * WHERE dt ='2020-12-26'
INSERT INTO table4 SELECT * WHERE dt ='2020-12-27'
INSERT INTO table5 SELECT * WHERE dt ='2020-12-28';
这样可以确保只对 table1表执行一次扫描,从而可以大大减少执行的时间和资源。