Java版本的BloomFilter (布隆过滤器)

最新推荐文章于 2024-04-23 06:41:57 发布

ansj

最新推荐文章于 2024-04-23 06:41:57 发布

阅读量1.3k

点赞数

分类专栏：算法讨论 JAVASE 文章标签： java

本文链接：https://blog.csdn.net/ansjsun/article/details/84014767

版权

算法讨论同时被 2 个专栏收录

34 篇文章 0 订阅

订阅专栏

JAVASE

28 篇文章 0 订阅

订阅专栏

哈哈...我终于写了个BloomFilter

这个是干嘛用的???

恩...一般比较常见的应用是字符串去重..也就是...恩..就是采集网址去重.防止重复采集

下面是我自己写的个例子


BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream("D:\\Users\\caiqing\\workspace\\CQ\\library\\dictionary-utf8.TXT"),"UTF-8")) ;
		String str = null ;
		System.out.println("begin");
		long start = System.currentTimeMillis() ;
		while((str=br.readLine())!=null){
			if(bf.containsAndAdd(str)){
				System.out.println("containsAndAdd:"+str);
			}
		}

		br.close() ;

		br = new BufferedReader(new InputStreamReader(new FileInputStream("D:\\Users\\caiqing\\workspace\\CQ\\library\\dictionary-utf8.TXT"),"UTF-8")) ;
			System.out.println("begin-find");
			start = System.currentTimeMillis() ;
			while((str=br.readLine())!=null){
				if(!bf.contains(str)){
					System.out.println("contains:"+str);
				}
			}

		System.out.println(System.currentTimeMillis()-start);
		br.close() ;

对分词词典79962个词进行插入.和查重..准确率100%.算上IO时间耗时79毫秒...

源码我放到下面了大家可以下载..还有..要的人给个评论吧..我的博客好冷清啊

今天回来用我的过滤器做了个测试哎...效果不是很理想啊..在千万级数据还行.再大就不好办啦

重新抄袭了一些经典的算法...(哎中科院老师的算法有毛病有三个Hash算法都是白给的.也许是我从c转到java没写对吧..) 现在效率1亿..64m内存大约失误率是0.0013 12m的失误个数是44..另外我吧能加的hash都加上了.这里只测试了5个..哈哈
我很满意非常满意....请大家敬请下载吧

ansj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Java版本的BloomFilter (布隆过滤器)

哈哈...我终于写了个BloomFilter这个是干嘛用的???恩...一般比较常见的应用是字符串去重..也就是...恩..就是采集网址去重.防止重复采集下面是我自己写的个例子[code="java"]BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStrea...
复制链接

扫一扫

专栏目录