背景 计算pv和uv时经常出现数据倾斜,比如在场门客流统计时,地铁口场门是其他场门的上百倍。这很容易导致数据倾斜 解决方案 整体思路是把数据打撒,做两阶段聚合。但是在计算pv和uv时,还是略有不同。 计算pv时,在group by后简单添加随机数即可,代码如下: select dt, gate_id, sum(pv) as pv from( select dt, gate_id, count(pid