URL去重:布隆过滤器的简单实现

/**
* 如何不采集重复的网页?去重可以使用布隆过滤器,每个线程使用一个bitarray,
* 里面保存本批源页面上次抓取的页面的哈希值情况,抓取下来的源页面分析链接后,
* 去这个bitarray里判断以前有没有抓过这个页面,没有的话就抓下来,抓过的话就不管了。
* 假设一个源页面有30个链接,一批10W个源页面,300w个链接的bitarray应该也不会占太大内存。
* 所以有个五六个线程同时处理也是没问题的。
* **/

public class SimpleBloomFilter {
private static final int DEFAULT_SIZE = 2 << 24;
private static final int[] seeds = new int[] { 7, 11, 13, 31, 37, 61, };
private BitSet bits = new BitSet(DEFAULT_SIZE);
private SimpleHash[] func = new SimpleHash[seeds.length];

public SimpleBloomFilter() {
for (int i = 0; i < seeds.length; i++) {
func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
}
}

public static void main(String[] args) {
String value = "stone2083@yahoo.cn";
SimpleBloomFilter filter = new SimpleBloomFilter();
System.out.println(filter.contains(value));
filter.add(value);
System.out.println(filter.contains(value));
}


// 覆盖方法,把URL添加进来
public void add(CrawlUrl value) {
if (value != null)
add(value.getOriUrl());
}

// 覆盖方法,把URL添加进来
public void add(String value) {
for (SimpleHash f : func)
bits.set(f.hash(value), true);
}

// 覆盖方法,是否包含URL
public boolean contains(CrawlUrl value) {
return contains(value.getOriUrl());
}

// 覆盖方法,是否包含URL
public boolean contains(String value) {
if (value == null) {
return false;
}
boolean ret = true;
for (SimpleHash f : func) {
ret = ret && bits.get(f.hash(value));
}
return ret;
}

public static class SimpleHash {
private int cap;
private int seed;

public SimpleHash(int cap, int seed) {
this.cap = cap;
this.seed = seed;
}
public int hash(String value) {
int result = 0;
int len = value.length();
for (int i = 0; i < len; i++) {
result = seed * result + value.charAt(i);
}
return (cap - 1) & result;
}
}
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值