hive中的虚拟列

Hive中的虚拟列用于实现数据分区,提高海量数据处理效率。在查询时,应在where语句中使用虚拟列如logdate,以限制查询特定分区,避免全表扫描。例如在web_log表中,通过logdate对日志数据分区,查询时必须指定logdate以优化性能。错误的查询方式可能导致全分区数据加载,正确做法是先根据虚拟列过滤后再进行join操作。
摘要由CSDN通过智能技术生成

Hive中有个"虚拟列"的概念,此列并未在表中真正存在,其用意是为了将Hive中的表进行分区(partition),这对每日增长的海量数据存储而言是非常有用的。为了保证HiveQL的高效运行,强烈推荐在where语句后使用虚拟列作为限定。拿web日志举例,在Hive中为web日志创建了一个名为web_log表,它有一个虚拟列logdate,web_log表通过此列对每日的日志数据进行分区。因此,在对web_log表执行select时,切记要在where后加上logdate的限定条件,如下:

SELECT url FROM web_log WHERE logdate='20090603';

若是没有logdate作为限定,Hive默认查询web_log表的所有分区,有多少天就查多少天,那个场景无法想象!



注意陷阱:

select * from r_winner_details r join t_users s on r.seller_id=s.user_id where r.pt='20091029000000';

因为上句的含义是将r_

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值