HyperLogLog

在大型网站中,统计每个网页的UV(唯一访客)数据时,传统Set集合方法会消耗大量空间。HyperLogLog提供了一种不精确但误差小的去重计数解决方案,适用于UV统计,其标准误差约为0.81%,并且内存占用极低,通常不超过12kb。通过Redis的pfadd和pfcount指令,可以方便地实现去重计数,降低了存储成本。
摘要由CSDN通过智能技术生成

       

       例如一个很常见的业务问题:如果你负责开发维护一个大型的网站,有一天老板找产品经理要网站上每个网页每天的UV数据,然后让你来开发这个统计模块,你会如何实现?

       如果统计PV,那非常好办,给每个网页配一个独立的Redis计数器就可以了,把这个计数器的key后缀加上当天的日期。这样来一个请求,执行incrby指令一次,最终就可以统计出所有的PV数据。

       但是UV不一样,它要去重,同一个用户一天之内的多次访问请求只能计数一次。这就要求每一个网页请求都需要带上用户的ID,无论是登陆用户还是未登录用户都需要一个唯一ID来标识。

       你也许已经想到了一个简单的方案,那就是为每一个页面设置一个独立的Set集合来存储所有当天访问过此页面的用户ID.当一个请求过来时,我们使用sadd将用户ID塞进去就可以了。通过scard可以取出这个集合的大小,这个数字就是这个页面的UV数据。没错,这是一个非常简单的可行方案。

        但是,如果你的页面访问量非常大,比如一个爆款页面可能有几千万个UV,你就需要一个很大的set集合来统计,这就非常浪费空间。如果这样的页面很多,那所需要的存储空间是惊人的。为这样一个去重功能就耗费这样多的存储空间,值得吗?其实老板所需要的数据并不需要太精确,105万和106万这两个数字对于老板来说并没有多大区别。那么,有没有更好的解决方案呢?

        HyperLogLog就是一个很好的解决方案。Redis提供的HyperLogLog数据结构就是用来解决这种统计问题的。HyperLogLog提供不精确的去重计数方案,虽然不精确,但是也不是非常离谱,标准误差是0.81%,这样的精确度已经可以满足上面的UV统计需求了。

       HyperLogL

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值