【hive/impala】求整体和局部的比例时, join 应在group by之后进行

场景:同一张表中,需要找到表中某些特定商品在品类中sku数量和销售额所占的比例。
 
由于Hive 中不支持 in 用法 ( select xxx from table_namewhere product_id in (select xxx from table)这种写法不可)
子查询必须用 impala 的semi left join 写法
 
就是说把联表条件写成semi join,但是这样有个问题,没办法取到b的值
 
比如以下语句,要用b.product_id 做计算,就不能用LEFT SEMI JOIN,只能用JOIN
b表必须用JOIN,且不能算精确值,只能使用NDV算近似值
 
// 这种写法,只能算a表的product_id;如果要计算b表的内容联表必须用JOIN
// 且不能算b表的精确值,只能使用NDV算近似值

SELECT a.category_name AS category_name,
         count(DISTINCT a.product_id) AS total_distinct_count,
         NDV(DISTINCT b.product_id) AS distinct_ndv_count
FROM {ds} a LEFT SEMI
JOIN {ds} b ON(a.category_name = b.category_name
        AND b.product_id IN {product_clause}
        AND b.month >= '{date_start}'
  
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值