BloomFilter去重

背景:1000万手机号去重

方法:

1. 将手机号入数据库表中,设置主键唯一
2. 用HashSet将访问过的手机号保存起来。那只需接近O(1)的代价就可以查到一个手机号是否重复
3. 手机号经过MD5或SHA-1等单向哈希后再保存到HashSet或数据库。
4. Bit-Map方法。建立一个BitSet,将手机号经过一个哈希函数映射到某一位。
其中
方法1比较耗IO,占用数据库资源
方法2,3比较占内存,很容易导致内存溢出

方法4消耗内存是相对较少但缺点是单一哈希函数发生冲突的概率太高

所以我们就用到了BloomFilter去重,好处就是占用内存少,重复率低

代码

package com.focus.wechat.phone;

import java.util.BitSet;

public class SimpleBloomFilter {
	private static final int DEFAULT_SIZE = 2 << 24;
	private static final int[] seeds = new int[] { 5, 7, 11, 13, 31, 37, 61 };
	private BitSet bits = new BitSet(DEFAULT_SIZE);
	private SimpleHash[] func = new SimpleHash[seeds.length];

	public SimpleBloomFilter() {
		for (int i = 0; i < seeds.length; i++) {
			func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
		}
	}

	public void add(String value) {
		for (SimpleHash f : func) {
			bits.set(f.hash(value), true);
		}
	}

	public boolean contains(String value) {
		if (value == null) {
			return false;
		}
		boolean ret = true;
		for (SimpleHash f : func) {
			ret = ret && bits.get(f.hash(value));
		}
		return ret;
	}

	//内部类,simpleHash
	public static class SimpleHash {
		private int cap;
		private int seed;

		public SimpleHash(int cap, int seed) {
			this.cap = cap;
			this.seed = seed;
		}

		public int hash(String value) {
			int result = 0;
			int len = value.length();
			for (int i = 0; i < len; i++) {
				result = seed * result + value.charAt(i);
			}
			return (cap - 1) & result;
		}
	}

	public static void main(String[] args) {
		String value = "stone2083@yahoo.cn";
		SimpleBloomFilter filter = new SimpleBloomFilter();
		System.out.println(filter.contains(value));
		filter.add(value);
		System.out.println(filter.contains(value));
	}
}

调用方法:

public static void deal1(){
		System.out.println("开始内存:" + Runtime.getRuntime().freeMemory());
		SimpleBloomFilter filter = new SimpleBloomFilter();
		BufferedWriter writer = null;
		try {
			writer = new BufferedWriter(new FileWriter("D://phone//order//order1.txt"));
			DBCollection collection = CopyOfMongoDBManager.getCollection("order_sms_info");
			DBCursor cursor = collection.find();
			if (null != cursor) {
				int i = 0;
				while (cursor.hasNext()) {
					i ++;
					if (i % 10000 == 0) {
						System.out.println(i);
					}
					DBObject object = cursor.next();
					String phone = (String)object.get("phone");
					if (!filter.contains(phone)) {
						filter.add(phone);
						writer.write(phone+LINE);
					}
				}
				cursor.close();
			}
			writer.flush();
		} catch (IOException e) {
			e.printStackTrace();
		}finally{
			try {
				writer.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
		}
		System.out.println("结束内存:" + Runtime.getRuntime().freeMemory());
	}



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hutool BloomFilter 是一个基于布隆过滤器算法实现的工具类库,可以快速判断一个元素是否存在于大规模数据集中。它具有空间效率高、查询速度快等优点,常用于缓存、去重、反垃圾邮件等场景。 下面是使用 Hutool BloomFilter 的步骤: 1. 引入 Hutool BloomFilter 依赖 ```xml <dependency> <groupId>cn.hutool</groupId> <artifactId>hutool-bloomfilter</artifactId> <version>5.7.8</version> </dependency> ``` 2. 创建 BloomFilter 实例 ```java BloomFilter<String> bloomFilter = new BloomFilter<>(1000000, 0.01); ``` 这里创建了一个容量为 1000000,误差率为 0.01 的 BloomFilter 实例。 3. 添加元素到 BloomFilter 中 ```java bloomFilter.add("hello"); bloomFilter.add("world"); ``` 通过 add 方法将元素添加到 BloomFilter 中。 4. 判断元素是否存在于 BloomFilter 中 ```java boolean exists = bloomFilter.contains("hello"); ``` 使用 contains 方法判断元素是否存在于 BloomFilter 中。 完整示例代码: ```java import cn.hutool.core.lang.Console; import cn.hutool.bloomfilter.BloomFilter; public class BloomFilterDemo { public static void main(String[] args) { BloomFilter<String> bloomFilter = new BloomFilter<>(1000000, 0.01); bloomFilter.add("hello"); bloomFilter.add("world"); boolean exists = bloomFilter.contains("hello"); Console.log(exists); exists = bloomFilter.contains("hutool"); Console.log(exists); } } ``` 输出结果: ``` true false ``` 注意:BloomFilter 是一个概率性数据结构,误判率与容量和哈希函数数量有关。在实际使用中,需要根据实际情况选择合适的参数。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值