目前hive不支持 in或not in 中包含查询子句的语法,所以只能通过left join实现。
假设有一个会员表tb_member(当天会员记录,只有一个memberid),和一个会员消费表tb_sales
(当天会员消费,字段有一个memberid),这两个表都包含一个字段,memberid。
in查询
如果要查询当天会员的会员消费,需要用in查询,hive sql如下:
select memberid.memberid from memberid l eft outer join tb_sales on memberid.memberid=tb_sales.memberid where tb_sales.memberid is not null
如果memberid表和tb_sales表按天分区,字段是dt,那么查询2013年1月1号当天会员的会员消费,hive sql如下:
select memberid.memberid from memberid day_memberid left outer join
(select memberid from tb_sales where dt='20130101') day_tb_sales
on day_memberid.memberid=day_tb_sales.memberid where day_memberid.dt='20130101' and day_tb_sales.memberid is not null
not in查询
如果要查询当天会员的以前会员消费(这里假设非当天会员消费就是老用户),需要用not in查询,hive sql如下:
select memberid.memberid from memberid left outer join tb_sales on memberid.memberid=tb_sales.memberid where tb_sales.memberid is null;
如果memberid表和tb_sales表按天分区,字段是dt,那么查询2013年1月1号当天会员的以前会员消费,hive sql如下:
select memberid.memberid from memberid day_memberid left outer join
(select memberid from tb_sales where dt='20130101') day_tb_sales
on day_memberid.memberid=day_tb_sales.memberid where day_memberid.dt='20130101' and day_tb_sales.memberid is null;