hash与BloomFilter以及bitmap学习总结

最新推荐文章于 2023-06-05 23:15:57 发布

carlgood

最新推荐文章于 2023-06-05 23:15:57 发布

阅读量204

点赞数

分类专栏： C/C++ 文章标签：散列表哈希算法算法

本文链接：https://blog.csdn.net/carlgood/article/details/125838276

版权

C/C++ 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

hash的应用场景：

网络爬虫程序，怎么让它不去爬相同的 url 页面？
垃圾邮件过滤算法如何设计？
缓存穿透问题如何解决？

典型要点和应用：hash函数以及冲突原理
                              散列表
                               布隆过滤器
                               hyperloglog
                                分布式一致性hash

基本概念：

散列表：根据 key 计算 key 在表中的位置的数据结构；是 key 和其所在存储地址的映射关系；

hash函数：映射函数 Hash(key)=addr ；hash 函数可能会把两个或两个以上的不同 key 映射到同一地址，这
种情况称之为冲突（或者 hash 碰撞）；

选择hash：计算速度快、强随机分布（等概率、均匀地分布在整个地址空间）

冲突处理：链表法：常用方法，但缺点的易产生冲突链过长，一般超过256时转化为红黑树，将时间复杂度从O(n)降至O( $\log2{n}$ )

开发寻址法:有线性探测（常用）、平方探测、再散列和伪随机序列法

布隆过滤器：

是一种概率型数据结构，它的特点是高效地插入和查询，能确定某个字符串一定不存在
或者可能存在；不存储具体数据，所以占用空间小，查询结果存在误差，但是误差可控，同时不支持删除操作；其原因是因为一个元素加入位图时，通过k 个 hash 函数将这个元素映射到位图的 k 个点，并把它们置为 1；因此检索时，通过k个hash函数检测位图，如果有某一位图的值为0，则该key一定不存在；如果全为1，也只能是可能存在，因为其他key值的组合映射也可能将该key的映射bit位图置为1。如下图所示

总结：布隆过滤器通常用于判断某个 key 一定不存在的场景，同时允许判断存在时有误差的情况；
常见处理场景：① 缓存穿透的解决；② 热 key 限流；

使用步骤：在实际使用布隆过滤器时，首先需要确定 n 和 p，通过上面的运算得出 m 和 k；通常可以在下面这个网站上选出合适的值；https://hur.st/bloomfilter

分布式一致性 hash

分布式一致性 hash 算法将哈希空间组织成一个虚拟的圆环，圆环的大小是 $2^{32}$ ；

算法： hash(ip)% $2^{32}$ ，最终会得到一个 [0, $2^{32}$ -1 ]之间的一个无符号整型，这个整数代表
服务器的编号；多个服务器都通过这种方式在 hash 环上映射一个点来标识该服务器的位置；当用
户操作某个 key，通过同样的算法生成一个值，沿环顺时针定位某个服务器，那么该 key 就在该服
务器中；图片来自互联网，见下图：