布隆过滤器 VS hashmap
布隆过滤器(Bloom Hash)是一种巧妙的概率型数据结构(probabilistic datastructure),特点是高效地插入和查询。
和传统的数据结构相比,布隆过滤器占用空间小且高效,但有一定的概率性,结果存在误差。
hashmap的元素超过表的一半需要扩容(hashmap:hash散列+链表),当发生的hash冲突太严重,hashmap退化为链表
在STL中,map(rbtree),unordered_map(hash)
因为map和hashmap都比较占用内存,他们都存储了key,如url则非常占用空间;hash的存储效率只有50%,为了避免高碰撞一般hash表存到一半就会翻倍,很费内存。
布隆过滤器(hash):在哈希基础上扩展
应用场景
- 判断一个字符串是否存在
- 记录的数据量很大且要求查询效率高
- 用在允许误差的场景
原理
布隆过滤器是一个bit向量(数组),长度决定了占了多少内存,但增加key的时候不会耗内存(因为它不存储key).比如用4字节长度的bit向量,则有0~4294967295
当一个元素被加入集合时,通过K个hash函数把这个元素映射成一个bit向量中的K个点,把他们置1,检索时如果对应位都为1就可以判断元素很可能在集合中。因为每一位可能和多个元素相联系,所以布隆过滤器算法中不能够删除元素。
采用多个hash函数做映射得到多个位置索引并置1,为的是解决冲突问题
- 内部参数
- 向量表长度
- hash函数的个数
- 期望的误差
- 最多放多少个元素
bit向量的长度m和元素个数n都会影响查询的误判率p:m增大,n减小,都会降低p
设计布隆过滤器需要根据n、p先