Hive中有个"虚拟列"的概念,此列并未在表中真正存在,其用意是为了将Hive中的表进行分区(partition),这对每日增长的海量数据存储而言是非常有用的。为了保证HiveQL的高效运行,强烈推荐在where语句后使用虚拟列作为限定。拿web日志举例,在Hive中为web日志创建了一个名为web_log表,它有一个虚拟列logdate,web_log表通过此列对每日的日志数据进行分区。因此,在对web_log表执行select时,切记要在where后加上logdate的限定条件,如下:
SELECT url FROM web_log WHERE logdate='20090603';
若是没有logdate作为限定,Hive默认查询web_log表的所有分区,有多少天就查多少天,那个场景无法想象!
注意陷阱:
select * from r_winner_details r join t_users s on r.seller_id=s.user_id where r.pt='20091029000000';
因为上句的含义是将r_