JAVA布隆过滤器的使用BloomFilter

需求:对于一些url的去重若果量大的话使用redis会卡顿的,使用缓存还要考虑持久化,系统一关就没了.

于是就百度了一下布隆过滤器刚刚好,处理上亿数据也很快,站内存也小.

用法:

1.自己实现(可能不稳定,功能不是太多,一个添加,一个判断是否添加过了)

2.感谢java强大的生态,谷歌的guava工具里竟然有这个工具(我给写了工具类,方便吧数据给放到文件里,实现了持久化,不怕关机后数据没有了)

1.自己实现的
package cn.cpc.bloomfilter;


import java.util.BitSet;

public class SimpleBloomFilter {

    private static final int DEFAULT_SIZE = 2 << 24;
    private static final int[] seeds = new int[]{7, 11, 13, 31, 37, 61,};

    private BitSet bits = new BitSet(DEFAULT_SIZE);
    private SimpleHash[] func = new SimpleHash[seeds.length];


    public SimpleBloomFilter() {
        for (int i = 0; i < seeds.length; i++) {
            func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
        }
    }

    public void add(String value) {
        value = value.trim();
        for (SimpleHash f : func) {
            bits.set(f.hash(value), true);
        }
    }

    public boolean contains(String value) {
        value = value.trim();
        if (value == null) {
            return false;
        }
        boolean ret = true;
        for (SimpleHash f : func) {
            ret = ret && bits.get(f.hash(value));
        }
        return ret;
    }


}

用现成的 谷歌的guava工具
1.导入jar包
<!-- guava -->
        <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>27.1-jre</version>
        </dependency>
2.上工具
package cn.cpc.util;

import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.nio.charset.Charset;

public class BloomFilterUtil {

    private static int size = 1000000;

    private static BloomFilter<String> bloomFilter = null;

	//获取一个布隆过滤器
	fileName:持久化的文件名,这里是相对路径,就在本项目下
    public static BloomFilter<String> getStringBloomFilter(String fileName){

        try {
            File file = new File("filter");
            if (!file.exists()){
                System.out.println("持久化文件不存在!,将创建文件,布隆过滤器为空");
                bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charset.defaultCharset()), size);
            }else{
                System.out.println("持久化文件存在!,从文件读取数据到布隆过滤器");
                FileInputStream fileInputStream = new FileInputStream(file);
                bloomFilter = BloomFilter.readFrom(fileInputStream, Funnels.stringFunnel(Charset.defaultCharset()));
            }
        } catch (IOException e) {
            e.printStackTrace();
        }

        return bloomFilter;
    }

//吧布隆过滤器的储存到硬盘(持久化操作,也可以放数据库)
fileName:持久化的文件名,这里是相对路径,就在本项目下
    public static void write(String fileName){
        try {
            bloomFilter.writeTo(new FileOutputStream(new File(fileName)));
        } catch (IOException e) {
            e.printStackTrace();
        }
    }


}

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
布隆过滤器是一种高效的数据结构,用判断一个元素是否存在于一个集合中。它通过使用多个哈希函数和位数组来实现。 在Java中,可以使用第三方库Guava提供的BloomFilter类来使用布隆过滤器。下面是一个使用样例: ```java import com.google.common.hash.BloomFilter; import com.google.common.hash.Funnels; public class BloomFilterExample { public static void main(String[] args) { // 创建一个布隆过滤器,设置期望插入的元素数量和期望的误判率 BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.unencodedCharsFunnel(), 1000, 0.01); // 向布隆过滤器中添加元素 bloomFilter.put("apple"); bloomFilter.put("banana"); bloomFilter.put("orange"); // 判断元素是否存在于布隆过滤器中 System.out.println(bloomFilter.mightContain("apple")); // true System.out.println(bloomFilter.mightContain("banana")); // true System.out.println(bloomFilter.mightContain("orange")); // true System.out.println(bloomFilter.mightContain("grape")); // false } } ``` 在上面的样例中,首先创建了一个布隆过滤器,设置了期望插入的元素数量为1000,期望的误判率为0.01。然后通过`put`方法向布隆过滤器中添加元素。最后使用`mightContain`方法判断元素是否存在于布隆过滤器中。 需要注意的是,布隆过滤器是一个概率性数据结构,存在一定的误判率。因此,在判断元素是否存在时,可能会出现误判的情况。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值