Redis HyperLogLog 实战：高效处理百万级 UV 统计

Takumilovexu

已于 2024-10-28 10:58:21 修改

阅读量845

点赞数 16

文章标签： redis uv 前端

于 2024-10-23 08:30:00 首次发布

本文链接：https://blog.csdn.net/Takumilove/article/details/143145826

版权

文章目录

一开始，我想着直接在服务端保存每个用户的信息，但很快就意识到，这样做会导致 Redis 的内存占用爆炸性增长，完全不现实。

于是，我开始寻找更好的解决方案。经过一番探索，发现了 Redis 提供的神奇数据结构——HyperLogLog。它宣称能够以极低的内存消耗，完成对大量数据的基数统计，这正是我们所需要的！

什么是 UV 和 PV？

在深入探讨 HyperLogLog 之前，先简单回顾一下 UV 和 PV 的概念：

UV（Unique Visitor）：独立访客数，指一天内访问网站的去重用户数。即使同一用户多次访问，也只计为一次。
PV（Page View）：页面浏览量，用户每访问一次页面，就增加一次 PV。多次访问，PV 累加。

通常情况下，PV 会远远大于 UV。这两个指标对于评估网站流量都有重要意义。

UV 统计的挑战

传统的方法是在服务端记录每个访问用户的标识，以判断是否是新访客。然而，这种方式需要存储所有用户的标识数据，数据量大，内存占用高，随着用户量增长，很快就会遇到性能瓶颈。

HyperLogLog 的魅力

HyperLogLog（HLL） 是一种基于概率的算法，用于快速估算集合中不重复元素的数量，而无需存储所有元素。Redis 中的 HyperLogLog 实现有以下优点：

内存占用低：单个 HyperLogLog 的大小永远不会超过 12KB，无论你向其中添加了多少数据。
精度可接受：估算结果的标准误差是 0.81%，对于大部分应用场景，这点误差完全可以忽略不计。

这意味着，我们可以使用 HyperLogLog 来统计 UV，而不用担心内存占用的问题。

实战测试：百万数据的 UV 统计

为了验证 HyperLogLog 的实际效果，我做了一个小测试：向 HyperLogLog 中添加 100 万条数据，看看统计结果和内存占用情况。

测试代码

@Test
public void testHyperLogLog() {
    String key = "website_uv";
    for (int i = 1; i <= 1000000; i++) {
        redisTemplate.opsForHyperLogLog().add(key, "user_" + i);
    }
    Long uvCount = redisTemplate.opsForHyperLogLog().size(key);
    System.out.println("统计的 UV 数量为：" + uvCount);
}