去重Hash与布隆过滤器

co4chjoe

已于 2022-07-13 13:38:20 修改

阅读量275

点赞数

文章标签：哈希算法散列表算法

于 2022-07-13 13:19:54 首次发布

本文链接：https://blog.csdn.net/weixin_38839564/article/details/125761557

版权

背景

● 在使⽤word⽂档时，word如何判断某个单词是否拼写正确？
● ⽹络爬⾍程序，怎么让它不去爬相同的url⻚⾯？允许有误差
● 垃圾邮件（短信）过滤算法如何设计？允许有误差
● 公安办案时，如何判断某嫌疑⼈是否在⽹逃名单中？控制误差假阳率
● 缓存穿透问题如何解决？允许有误差

需求

从海量数据中查询某字符串是否存在，在常用数据结构的树下构建此类“海量数据”检索是不合适的，由于树对于key的存储会消耗大量内存，会导致查询速度非常慢。

拓展
● c++标准库（STL）中的set和map结构都是采⽤红⿊树实现的，它增删改查的时间复杂度是O ( l o g 2 N )。set和map的关键区别是set不存储val字段
优点：存储效率⾼，访问速度⾼效
缺点：对于数据量⼤且查询字符串⽐较⻓且查询字符串相似时将会是噩梦

概念引入 -> 散列表 hashtable

散列表构成：数组+hash函数。根据 key 计算 key 在表中的位置的数据结构，是 key 和其所在
存储地址的映射关系。通过将字符串进行hash函数运算生成一个整数再映射到数组中，时间复杂度为O(1)。
注意：散列表的节点中 kv 是存储在一起的

struct node {
   
    void *key;
    void *val;
    struct node *next;
};

拓展
● c++标准库（STL）中的unordered_map<string, bool>是采⽤hashtable实现的。
● hashtable中节点存储了key和val，hashtable并没有要求key的⼤⼩顺序，我们同样可以修改代码让插⼊存在的数据变成修改操作
优点：访问速度更快；不需要进⾏字符串⽐较
缺点：需要引⼊策略避免冲突，存储效率不⾼；空间换时间

概念引入 -> hash函数

hash函数作用： 避免对字符串进行比较，直接将hash函数计算出来的值存放在数组中。
hash冲突（hash 碰撞）： hash 函数可能会把两个或两个以上的不同 key 映射到同一地址
负载因子： 用来形容散列表的存储密度。数组存储元素的个数 / 数据长度；负载因子越小，冲突越小，负载因子越大，冲突越大。

如何选取hash函数？
1. 选取计算速度快
2. 强随机分布(等概率、均匀地分布在整个地址空间）
murmurhash1，murmurhash2