布隆过滤器使用

**

什么是布隆过滤器

**
布隆过滤器可以理解为一个不怎么精确的 set 结构,当你使用它的 contains 方法判断某个对象是否存在时,它可能会误判。但是布隆过滤器也不是特别不精确,只要参数设置的合理,它的精确度可以控制的相对足够精确,只会有小小的误判概率。

当布隆过滤器说某个值存在时,这个值可能不存在;当它说不存在时,那就肯定不存在。打个比方,当它说不认识你时,肯定就不认识;当它说见过你时,可能根本就没见过面,不过因为你的脸跟它认识的人中某脸比较相似 (某些熟脸的系数组合),所以误判以前见过你。

套在上面的使用场景中,布隆过滤器能准确过滤掉那些已经看过的内容,那些没有看过的新内容,它也会过滤掉极小一部分 (误判),但是绝大多数新内容它都能准确识别。这样就可以完全保证推荐给用户的内容都是无重复的。

使用场景:
推荐系统给用户推荐新闻,避免重复推送。

需要考虑问题:从用户观看历史中筛选出没有看过的新闻进行推送,就需要数据库中频繁的使用exists进行查询,但是当用户量很大时,数据库很难顶住压力。

解决方法:

使用缓存?但是日子长了,会浪费很大空间,不是长久之计,不是很好的解决办法。

这时布隆过滤器就可以很好的解决这个需求了,可以节约90%以上的空间,缺点就是稍微有那么一点不准确,存在一定的误判率,但是对于这个新闻推送的可以忽略。
bloomfilter使用

4.1 bf.add

语法:[bf.add key options]

127.0.0.1:6379> bf.add users user3
(integer) 1
4.2 bf.exists

语法:[bf.exists key options]

127.0.0.1:6379> bf.exists users user1

(integer) 1

127.0.0.1:6379> bf.exists users user3

(integer) 0

4.3 bf.madd

语法:[bf.add key …options]

127.0.0.1:6379> bf.madd users user4 user5 user6 user7

1) (integer) 1

2) (integer) 1

3) (integer) 1

4) (integer) 1

4.4 bf.mexists

语法:[bf.add key …options]

127.0.0.1:6379> bf.mexists users user4 user5 user6 user7 user8

1) (integer) 1

2) (integer) 1

3) (integer) 1

4) (integer) 1

5) (integer) 0

4.5 bf.reserve创建Filter

语法:[bf.reserve key error_rate initial_size]

127.0.0.1:6379> bf.reserve books 0.001 10000

OK

5.代码实现

5.1引入依赖

jedis3.0没有rebloom的相关方法,只能通过引入rebloom.jar。

https://github.com/RedisLabs/JReBloom

pom.xml引入:

<dependencies>
   <dependency>
  <groupId>com.redislabs</groupId>
  <artifactId>jrebloom</artifactId>
  <version>1.0.1</version>
  </dependency>
</dependencies>

5.2对自己见过的元素判断是否不存在

@Test
public void test3() {
setJedisPool();
Client client = new Client(jedisPool);
jedisPool.getResource().del("book");
for (int i = 0; i < 10000; i++) {
    String book = "book" + i;
    client.add("book", book);
    boolean ret = client.exists("book", book); // 判断自己见过的,没有出现误判
    if (!ret) {
        System.out.println(i);
    }
}
jedisPool.close();
}

5.3使用默认Filter参数(),对自己没有见过的,判断是否存在

@Test
public void test4() {
setJedisPool();
Client client = new Client(jedisPool);
int count = 0;
jedisPool.getResource().del("book");
for (int i = 0; i < 10000; i++) {
    String book = "book" + i;
    boolean ret = client.exists("book", book); // 判断自己没见过的,误判数153个,15.3%
    if (ret) {
        count++;
        System.out.println(i + "误判数:" + count);
    }
    client.add("book", book);
}
jedisPool.close();
}

10000个元素,判断自己没见过的,误判数153个,1.53%

对于超过1.5%的误判率怎么办呢?

默认的Filter的initial_size=100,error_rate=0.1;

5.4创建Filter(initial_size,error_rate),对自己没有见过的,判断是否存在

@Test
public void test5() {
setJedisPool();
Client client = new Client(jedisPool);
int count = 0;
jedisPool.getResource().del("book");
client.createFilter("book", 9000, 0.001);
for (int i = 0; i < 10000; i++) {
    String book = "book" + i;
    boolean ret = client.exists("book", book); // 判断自己没见过的,10000,0.001误判数0个;9000,0.001误判1个;
    if (ret) {
        count++;
    }
    System.out.println(book + "--" + ret + "--误判数:" + count);
    client.add("book", book);
}
jedisPool.close();
}

设置预计放入的元素个数=10000,错误率=0.001误判数0个;

设置预计放入的元素个数=9000,错误率=0.001误判1个;

注意事项:

布隆过滤器的initial_size估计的过大,所需要的空间就越大,会浪费空间,估计的过小会影响准确率,因此在使用前一定要估算好元素数量,还需要加上一定的冗余空间以避免实际元素高出预估数量造成误差过大。

布隆过滤器的error_rate越小,所需要的空间就会越大,对于不需要过于准确的,error_rate设置的稍大一点也无所谓。

6.布隆过滤器原理

每个布隆过滤器对应到 Redis 的数据结构里面就是一个大型的位数组和几个不一样的无偏 hash 函数。所谓无偏就是能够把元素的 hash 值算得比较均匀。

向布隆过滤器中添加 key 时,会使用多个 hash 函数对 key 进行 hash 算得一个整数索引值然后对位数组长度进行取模运算得到一个位置,每个 hash 函数都会算得一个不同的位置。再把位数组的这几个位置都置为 1 就完成了 add 操作。

向布隆过滤器询问 key 是否存在时,跟 add 一样,也会把 hash 的几个位置都算出来,看看位数组中这几个位置是否都为 1,只要有一个位为 0,那么说明布隆过滤器中这个 key 不存在。如果都是 1,这并不能说明这个 key 就一定存在,只是极有可能存在,因为这些位被置为 1 可能是因为其它的 key 存在所致。如果这个位数组比较稀疏,判断正确的概率就会很大,如果这个位数组比较拥挤,判断正确的概率就会降低。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值