Redis系列(四)--HyperLogLong入门实战和详解

最新推荐文章于 2024-09-03 19:40:04 发布

weixin_33749131

最新推荐文章于 2024-09-03 19:40:04 发布

阅读量3.8k

点赞数 1

文章标签：数据库 sketch java

原文链接：https://my.oschina.net/u/2380961/blog/3030313

版权

2019独角兽企业重金招聘Python工程师标准>>>

一、使用场景

使用场景：

统计网页访问量。

思考：怎么样统计网页访问量，并且一个IP一天访问多次同一个页面，只能算一次？

分析：1.首先分析该统计数，是否需要正确，其实产品只需要一个大概的，一天100W，和一天110W，其实差不多。如果使用Java的话，那个list可以去重，同时在内存等相关上要占很小的比率。

解决方式：

方式一：传统方式，集合实现。

使用集合(set)来储存每个访客的 IP ，通过集合性质（集合中的每个元素都各不相同）来得到多个独立 IP .但是缺点也很大，假如访问量很大，你需要一个很大的 set 集合来统计，这就非常浪费空间。如果这样的页面很多，那所需要的存储空间是惊人的。为这样一个去重功能就耗费这样多的存储空间，值得么？

使用字符串来储存每个 IPv4 地址最多需要耗费 15 字节（格式为 'XXX.XXX.XXX.XXX' ，比如'192.168.10.127'）。

下表给出了使用集合记录不同数量的独立 IP 时，需要耗费的内存数量：

独立 IP 数量一天一个月一年

一百万15 MB 450 MB 5.4 GB

一千万150 MB 4.5 GB 54 GB

一亿1.5 GB 45 GB 540 GB

随着集合记录的 IP 越来越多，消耗的内存也会越来越多。

另外如果要储存 IPv6 地址的话，需要的内存还会更多一些

方式二：redis 2.8.6 版本之后，新的命令功能，HyperLogLong。

Redis 提供了 HyperLogLog 数据结构就是用来解决这种统计问题的。HyperLogLog 提供不精确的去重计数方案，虽然不精确但是也不是非常不精确，标准误差是 0.81%，这样的精确度已经可以满足上面的 UV 统计需求了。

二、概念和实战

Redis HyperLogLog 是用来做基数统计的算法，HyperLogLog 的优点是，在输入元素的数量或者体积非常非常大时，计算基数所需的空间总是固定的、并且是很小的。

在 Redis 里面，每个 HyperLogLog 键只需要花费 12 KB 内存(因为 Redis 对 HyperLogLog 的存储进行了优化，在计数比较小时，它的存储空间采用稀疏矩阵存储，空间占用很小，仅仅在计数慢慢变大，稀疏矩阵占用空间渐渐超过了阈值时才会一次性转变成稠密矩阵，才会占用 12k 的空间。)，就可以计算接近 2^64 个不同元素的基数。这和计算基数时，元素越多耗费内存就越多的集合形成鲜明对比。

但是，因为 HyperLogLog 只会根据输入元素来计算基数，而不会储存输入元素本身，所以 HyperLogLog 不能像集合那样，返回输入的各个元素。

1.使用命令模式

    pfadd test:aaron:ip "191.168.1.23"        pfadd test:aaron:ip "191.168.1.24"        #结果为2    pfcount test:aaron:ip

2.py代码

import redis
#redis 连接
pool = redis.ConnectionPool(host='127.0.0.1', port=6379)r = redis.Redis(connection_pool=pool)
#HyperLogLogdef her_log():    for i in range(100000):        r.pfadd("test:log:aaron", "user%d" % i)    print (100000, r.pfcount("test:log:aaron"))

#主函数，执行行数if __name__ == '__main__':        her_log()

3.Java代码

package com.example.redis.zfr.demoredis.bit;
import org.springframework.beans.factory.annotation.Autowired;import org.springframework.data.redis.connection.RedisStringCommands;import org.springframework.data.redis.core.RedisCallback;import org.springframework.data.redis.core.RedisTemplate;import org.springframework.stereotype.Component;
/** * @author 繁荣Aaron * redis工具类 */@Componentpublic class RedisUtil {

    @Autowired    private RedisTemplate<Object, Object> redisTemplate;
    /**     * 设置 HyperLogLong 的 key 值     * @param key     * @param value     */    public Long pfadd(String key, String value){        return redisTemplate.execute((RedisCallback<Long>) con -> con.pfAdd(key.getBytes(),value.getBytes()));    }
    /**     * 获取HyperLogLong 数量     * @param key     * @return     */    public Long pfCount(String key){        return redisTemplate.execute((RedisCallback<Long>) con -> con.pfCount(key.getBytes()));    }}

三、思考

1.pf 的内存占用为什么是 12k？

解决：Redis 的 HyperLogLog 实现中用到的是 16384 个桶，也就是 2^14，每个桶的 maxbits 需要 6 个 bits 来存储，最大可以表示 maxbits=63，于是总共占用内存就是2^14 * 6 / 8 = 12k字节。

2.两个页面合并访问量怎么做？

可以使用pfmerge命令。

命令：

    pfadd test:aaron:ip "191.168.1.23"        pfadd test:aaron:ip "191.168.1.24"        pfadd test:aaron:ip:merge "191.168.1.24"        pfadd test:aaron:ip:merge "191.168.1.23"        PFMERGE test:aaron:ip:merge:result test:aaron:ip test:aaron:ip:merge        #结果为2    PFCOUNT test:aaron:ip:merge:result

四、总结

HyperLogLog 实现独立 IP 计算功能：

独立 IP 数量一天一个月一年一年（使用集合）

一百万12 KB 360 KB 4.32 MB 5.4 GB

一千万12 KB 360 KB 4.32 MB 54 GB

一亿12 KB 360 KB 4.32 MB 540 GB

下表列出了使用 HyperLogLog 记录不同数量的独立 IP 时，需要耗费的内存数量：

可以看到，要统计相同数量的独立 IP ，HyperLogLog 所需的内存要比集合少得多。