学 无 止 境 ,与 君 共 勉 。
简介
HyperLogLog
是Redis
中的高级数据结构,它主要用于对海量数据(可以统计2^64个数据)做基数统计(去重统计数量)。它的特点是速度快,占用空间小(12KB)。但是计算存会在误差,标准误差为0.81%。HyperLogLog
只会根据输入元素来计算基数,而不会储存输入元素本身,所以他并不能判断给定的元素是否已经存在了。
基本指令
pfadd(key,value…)
将指定的元素添加到HyperLogLog
中,可以添加多个元素
public void pfAdd(String key, String... value) {
stringRedisTemplate.opsForHyperLogLog().add(key, value);
}
pfcount(key…)
返回给定HyperLogLog
的基数估算值。当一次统计多个HyperLogLog
时,需要对多个HyperLogLog
结构进行比较,并将并集的结果放入一个临时的HyperLogLog
,性能不高,谨慎使用
public Long pfCount(String... key) {
return stringRedisTemplate.opsForHyperLogLog().size(key);
}
pfmerge(destkey, sourcekey…)
将多个HyperLogLog
进行合并,将并集的结果放入一个指定的HyperLogLog中
public void pfMerge(String destKey, String... sourceKey) {
stringRedisTemplate.opsForHyperLogLog().union(destKey, sourceKey);
}
误差测试
基于SpringBoot的进行误差测试,初始化5个HyperLogLog
,每个随机添加10000个元素,然后调用pfcount
查看具体误差:
@RestController
@RequestMapping("/redis/hll")
public class HyperController {
private final RedisService redisService;
public HyperController(RedisService redisService) {
this.redisService = redisService;
}
@GetMapping("/init")
public String init() {
for (int i = 0; i < 5; i++) {
Thread thread = new Thread(() -> {
String name = Thread.