《Redis深度历险》布隆过滤器，简单限流

最新推荐文章于 2024-07-24 14:07:28 发布

源大郎

最新推荐文章于 2024-07-24 14:07:28 发布

阅读量496

点赞数

分类专栏： Redis 文章标签： redis 布隆过滤器

本文链接：https://blog.csdn.net/qq_38732834/article/details/106755176

版权

Redis 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

布隆过滤器

如果需要依据需要判断某个信息存不存在，则就无法使用HyperLogLog，它只能估测出大概存在多少个不同的值，但是由于数据都被处理过了，无法进行还原，且基于一定的概率性。
比如如果需要对用户数据推荐某些东西，而不能推荐一些重复的内容时，HyperLogLog就无法使用了，这时就需要使用到布隆过滤器了，它是一种高级数据结构，布隆过滤器课节省90%的空间，只是稍微有点不精确，存在一定的误判率。

是什么

不是完全精确的SET
可能会把没存在过的误判为存在，不会把存在误判不存在。
在上述场景中，就可能会漏推荐一些内容。

Redis中的布隆过滤器

基本命令 bf.add和bf.exists ，bf.madd,bf.mexists;
可使用bf.reserve 命令设定key,error_rate,initial_size. error_rate为容错率，设置得越低越精确可是会越耗费空间，不过不是完全精准的，略高一点是能够允许的，initial_size是预计放入的元素数量，如果真实数量超出此大小了，则会影响准确率。

原理

看亚子作者比较喜欢布隆过滤器，这章就介绍得稍微详细些。
简单的说就是用多个无偏的Hash函数，对添加的元素计算Hash值，然后对数组长度取模，每个会映射多个位置，置为1，如果一个重复的key算出的hash值肯定在数组中是被置为1的，不过不重复的key也因为这个原因可能映射的位置也已经被其他置1了。
如果数组中比较稀疏时准确率还是比较可观的，如果拥挤的话，情况就会越来越糟。使用的多个hash函数的目的是为了使映射充分的散列开来。
所以当实际数量远超于初始数量时，就需要对布隆过滤器进行重建，重新分配一个更大的过滤器。再将所有值批量插入其中。

空间占用估计

原理中的数组的长度并不与预计数量等价。

k≈0.7*(l/n); l数组长度，n预计元素个数，k所需hash函数数量
f=0.6185^(l/n);  f容错率

实际元素超出时，误判率会怎样变化

错误率原本置于较低就会上升得比较慢，因为k越大。
大致符合这个公式：f = （1-0.5x）^k x为实际元素与预计元素的倍数。

其他应用

网页爬虫，垃圾邮件过滤功能（所以一些正常邮件可能会被误判为垃圾…）。

简单限流

系统性能有限，所以阻止一部分计划外的请求是需要考虑的一个问题，除了控制流量还有限行用户行为的作用，避免垃圾请求。在一定的时间内只能进行有限次的某操作，超出的都是非法相应，予以拒绝。
本来我想的是给定一个字符串，设定过期时间，在时间范围内不允许再操作，等待过期…
书中给定的方案是使用zset，value来存储毫秒时间戳，只保留在滑动窗口内的值。如果没有值了则移除内存。

如果规定时间内的操作极多（比如60秒内允许操作100万次），则会耗费大量内存。

public class SimpleRateLimiter {
    private Jedis jedis;

    public SimpleRateLimiter(Jedis jedis){
        this.jedis = jedis;
    }

    public boolean isActionAll(String userId,String actionKey,int period,int maxCount){
        String key = String.format("hist:%s:%s",userId,actionKey);
        long nowTs = System.currentTimeMillis();
        //pipeline就是把一组命令进行打包
        //然后一次性通过网络发送到Redis。同时将执行的结果批量的返回回来
        Pipeline pipe = jedis.pipelined();
        //multi代表事务开始
        pipe.multi();
        //key score member
        pipe.zadd(key,nowTs,""+nowTs);
        //规定的时间宽度内有多少个元素
        pipe.zremrangeByScore(key,0,nowTs-period*1000);
        Response<Long> count = pipe.zcard(key);
        //设置过期时间
        pipe.expire(key,period+1);
        //exec事务结束
        pipe.exec();
        pipe.clear();
        return count.get()<=maxCount;
    }

    public static void main(String[] args) {
        Jedis jedis = new Jedis();
        SimpleRateLimiter limiter = new SimpleRateLimiter(jedis);
        for(int i=0;i<20;i++){
            System.out.println("i: "+limiter.isActionAll("yuan","ddd",60,5));
        }
    }
}