后端面试必备：如何使用Redis统计大量用户唯一访问量(UV)_如何使用 redis 统计大量用户唯一访问量(uv)?-CSDN博客

本文链接：https://blog.csdn.net/qq_58299462/article/details/147007037

Redis面试题 - 如何使用Redis统计大量用户唯一访问量(UV)？

回答重点

Redis中HyperLogLog结构，可以快速实现网页UV、PV等统计场景。它是一种基数估算算法的概率性数据结构，可以用极少的内存统计海量用户唯一访问量的近似值。

Set也可以实现，用于精确统计唯一用户访问量，但是但当用户数非常大时，内存开销较高。

引言

在Web应用和大数据场景中，统计唯一访问用户数(UV)是一个常见需求。相比传统的数据库方案，Redis凭借其高性能和丰富的数据结构，成为实现UV统计的理想选择。本文将介绍几种基于Redis的UV统计方法，并分析它们的适用场景。

基本概念

唯一访问量(Unique Visitor, UV)指在一定时间内访问网站的不同用户的数量。与PV(Page View)不同，UV关注的是独立用户数而非页面访问次数。

方法一：使用Redis集合(Set)

原理

Redis的Set数据结构天然适合存储唯一值，可以自动去重。

实现代码

import redis

r = redis.Redis(host='localhost', port=6379, db=0)

def add_visit(user_id):
    r.sadd('daily_uv:2023-11-01', user_id)
    
def get_uv(date):
    return r.scard(f'daily_uv:{date}')

优缺点

优点：

实现简单直观
精确统计

缺点：

内存占用高(每个用户ID都存储)
不适合超大规模用户统计

方法二：使用HyperLogLog

原理

HyperLogLog是一种概率算法，用于估算集合的基数(不重复元素数量)，仅需固定12KB内存即可统计上亿级别的UV。

实现代码

def add_visit_hll(user_id):
    r.pfadd('daily_uv_hll:2023-11-01', user_id)
    
def get_uv_hll(date):
    return r.pfcount(f'daily_uv_hll:{date}')

优缺点

优点：

内存占用极低(固定12KB)
支持合并多个HLL(如合并多日数据)

缺点：

存在约0.81%的标准误差
是估算值而非精确值

方法三：使用位图(Bitmap)

原理

将用户ID映射到位图的特定位置，通过统计置位数量估算UV。

实现代码

def add_visit_bitmap(user_id):
    offset = hash(user_id) % (2^32)
    r.setbit('daily_uv_bitmap:2023-11-01', offset, 1)
    
def get_uv_bitmap(date):
    return r.bitcount(f'daily_uv_bitmap:{date}')