HyperLogLog是什么
Redis在2.8.9
版本添加了HyperLogLog。
Redis HyperLogLog是用来做基数统计;HyperLogLog的优点:在输入元素的数量或者体积非常非常大时,计算基数所需的空间总是固定的,并且是很小的。
在Redis中,每个HyperLogLog类型的键只需要花费12KB
内存,就可以计算接近2^64
个不同元素的基 数。这和计算基数时,元素越多耗费内存就越多的集合形成鲜明对比。
但是,因为HyperLogLog只会根据输入元素来计算基数,而不会储存输入元素本身,所以HyperLogLog不能像集合那样,返回输入的各个元素。
PFADD
PFADD key element [element …]
可用版本: >= 2.8.9
时间复杂度: 每添加一个元素的复杂度为 O(1) 。
将任意数量的元素添加到指定的HyperLogLog里面。
如果HyperLogLog估计的近似基数在命令执行之后出现了变化, 那么命令返回1
, 否则返回0
。 如果命令执行时给定的键不存在, 那么命令将先创建一个空的HyperLogLog类型的键, 然后再执行命令。
演示
可以只给定键而不给定元素,如果给定键已经是一个HyperLogLog类型, 命令会向客户端返回0
,而这种调用不会产生任何效果;但如果给定的键不存在, 那么命令会创建一个空的HyperLogLog类型的键, 并向客户端返回1
。
127.0.0.1:6379> exists loglog
(integer) 0
127.0.0.1:6379> pfadd loglog
(integer) 1
127.0.0.1:6379> pfadd loglog
(integer) 0
如果HyperLogLog估计的近似基数在命令执行之后出现了变化, 那么命令返回1
, 否则返回0
。
127.0.0.1:6379> pfadd loglog 1 2 3 4 5 6 7 8 9 0 10 11 12
(integer) 1
127.0.0.1:6379> pfcount loglog
(integer) 13
通过RedisDesktopManager可以看到这个HyperLogLog类型的值是HYLL,其实就是HyperLogLog的缩写,并且只有56B
。
PFCOUNT
PFCOUNT key [key …]
可用版本: >= 2.8.9
时间复杂度: 当命令作用于单个 HyperLogLog 时, 复杂度为 O(1) , 并且具有非常低的平均常数时间。 当命令作用于 N 个 HyperLogLog 时, 复杂度为 O(N) , 常数时间也比处理单个 HyperLogLog 时要大得多。
当PFCOUNT命令作用于单个键时, 返回给定HyperLogLog的近似基数, 如果键不存在, 那么返回0
。当PFCOUNT命令作用于多个键时, 返回所有给定HyperLogLog的并集的近似基数, 这个近似基数是通过将所有给定HyperLogLog合并至一个临时HyperLogLog来计算得出的。
命令返回的基数并不是精确值, 而是一个带有0.81%
标准错误的近似值。
演示
这里博主使用Jedis来进行演示。创建Spring Boot工程,添加依赖:
<dependency>
<groupId>redis.clients</groupId>
<artifactId>jedis</artifactId>
<version>3.3.0</version>
<type>jar</type>
<scope>compile</scope>
</dependency>
直接在启动类中进行演示。
package com.kaven.jedis;
import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import redis.clients.jedis.Jedis;
import redis.clients.jedis.JedisPool;
@SpringBootApplication
public class JedisApplication {
public static void main(String[] args) {
SpringApplication.run(JedisApplication.class, args);
JedisPool jedisPool = new JedisPool();
Jedis jedis = jedisPool.getResource();
for (int i = 1 ; i <= 100000 ; i++){
jedis.pfadd("str", i+"");
}
System.out.println(jedis.pfcount("str"));
}
}
输出99562
,很明显是有一定的误差,但重复执行很多次(执行之前需要删除之前的记录),结果都是99562
。
. ____ _ __ _ _
/\\ / ___'_ __ _ _(_)_ __ __ _ \ \ \ \
( ( )\___ | '_ | '_| | '_ \/ _` | \ \ \ \
\\/ ___)| |_)| | | | | || (_| | ) ) ) )
' |____| .__|_| |_|_| |_\__, | / / / /
=========|_|==============|___/=/_/_/_/
:: Spring Boot :: (v2.4.0)
2020-12-02 10:03:21.869 INFO 11556 --- [ main] com.kaven.jedis.JedisApplication : Starting JedisApplication using Java 1.8.0_181 on DESKTOP-Kaven with PID 11556 (E:\workspace\IDEA\blog\jedis\target\classes started by Kaven in E:\workspace\IDEA\blog\jedis)
2020-12-02 10:03:21.871 INFO 11556 --- [ main] com.kaven.jedis.JedisApplication : No active profile set, falling back to default profiles: default
2020-12-02 10:03:22.198 INFO 11556 --- [ main] com.kaven.jedis.JedisApplication : Started JedisApplication in 0.631 seconds (JVM running for 1.44)
99562
大小是12.02KB
(每个HyperLogLog类型只需使用12KB
内存,以及几个字节的内存来储存键本身)。
PFMERGE
PFMERGE destkey sourcekey [sourcekey …]
可用版本: >= 2.8.9
时间复杂度: O(N) , 其中 N 为被合并的 HyperLogLog 数量, 不过这个命令的常数复杂度比较高。
将多个HyperLogLog合并为一个HyperLogLog , 合并后的HyperLogLog的基数接近于所有输入 HyperLogLog的并集的基数。
合并得到的HyperLogLog会被储存在键destkey
里面, 如果该键并不存在, 那么命令在执行之前, 会先为该键创建一个空的HyperLogLog
。
演示
如果该键存在,并且有值, 命令并不会覆盖之前的值。
127.0.0.1:6379> pfadd loglog 1 2 3 4 5 6 7 8 9 0 10 11 12
(integer) 1
127.0.0.1:6379> pfcount loglog
(integer) 13
127.0.0.1:6379> pfadd loglog1 a b c d
(integer) 1
127.0.0.1:6379> pfcount loglog1
(integer) 4
127.0.0.1:6379> pfadd loglog2 kaven java king redis jedis
(integer) 1
127.0.0.1:6379> pfcount loglog2
(integer) 5
127.0.0.1:6379> pfmerge loglog2 loglog loglog1
OK
127.0.0.1:6379> pfcount loglog2
(integer) 22
Redis中HyperLogLog的PFADD、PFCOUNT、PFMERGE命令就介绍到这里。
写博客是博主记录自己的学习过程,如果有错误,请指正,谢谢!