计算pv和uv时数据倾斜的处理

在进行场门客流统计时,遇到数据倾斜问题,如地铁口场门的客流量远超其他场门。为了解决这个问题,文章介绍了在计算PV(页面浏览量)和UV(独立访客数)时的不同策略。计算PV可以采用在GROUP BY后添加随机数的方式;而计算UV由于涉及去重,需要采用不同的代码实现。
摘要由CSDN通过智能技术生成
背景

计算pv和uv时经常出现数据倾斜,比如在场门客流统计时,地铁口场门是其他场门的上百倍。这很容易导致数据倾斜

解决方案

整体思路是把数据打撒,做两阶段聚合。但是在计算pv和uv时,还是略有不同。

  • 计算pv时,在group by后简单添加随机数即可,代码如下:
select dt,
       gate_id,
       sum(pv) as pv
from(
  select
        dt,
        gate_id,
        count(pid
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

左林右李02

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值