大数据
HuntingGo
没有谁生来就是神牛, 而千里之行,始于足下
展开
-
Bloom Filter 布隆过滤器
布隆过滤器在很多场合能发挥很好的效果,比如:网页URL的去重,垃圾邮件的判别,集合重复元素的判别,查询加速(比如基于key-value的存储系统)等,下面举几个例子:有两个URL集合A,B,每个集合中大约有1亿个URL,每个URL占64字节,有1G的内存,如何找出两个集合中重复的URL。很显然,直接利用Hash表会超出内存限制的范围。这里给出两种思路: 第一种:如果不允许原创 2015-04-18 14:48:12 · 1127 阅读 · 0 评论 -
腾讯面试题:给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?
腾讯面试题:给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?首先, 40亿个unsigned int 的整数,如果放到内存, 那就是大约16G的空间,那么直接放到内存空间进行排序然后二分查找的方式是行不通的,所以可以考虑如下的方式.1. 在这里可以考虑使用bitmap,需要4*10^9bit内存, 大约500M原创 2015-04-20 12:29:07 · 10851 阅读 · 6 评论