算法笔记（十）—— 哈希函数和哈希表

最新推荐文章于 2024-09-07 16:56:49 发布

逮到647了

最新推荐文章于 2024-09-07 16:56:49 发布

阅读量466

点赞数 1

分类专栏：学习日记文章标签：算法哈希算法学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rygy_/article/details/129125298

版权

学习日记专栏收录该内容

32 篇文章 1 订阅

订阅专栏

认识哈希函数和哈希表的实现

哈希函数

哈希函数：输入域无穷，输出域（哈希值）相对有限

哈希函数：相同的输入一定会返回相同的输出值

由于输入域的无限和输出域的有限，不同的输入可能会返回相同的输出（哈希碰撞）

Note：将所有输入对应的输出，将所有输出值%m，得到的值在0~m-1上均匀分布（均匀性）。

Question：有一个无符号整数的文件，数据个数有40亿个，如何通过1G的内存返回出现次数最多的数

1. 对每个数调用哈希函数得到哈希值，将哈希值模上100，进行小文件分类（相同的数一定在同一文件）

2. 将每个小文件内出现次数最大的数进行比较即可

哈希表

通过哈希函数得到输出，通过取余将key-value挂在对应位置处（分桶）。

查找时，通过key对应哈希值来找即可。

布隆过滤器

eg. 目前有100亿个URL，需要通过黑名单来禁止访问（每个URL 64Byte），只需要添查操作。

使用布隆过滤器可以在很少空间内实现，但存在一定的失误率（不可避免），错将不在黑名单的URL认为在黑名单内。—— 宁错杀不放过

1. 使用整形数组来进行bitmap表示

2. 建立一个长度为m的bitmap，实际占用空间m/8 Byte

3. 添加黑名单：将URL通过哈希函数得到输出值%m，将该位设为1，再通过另一个哈希函数，同样处理，一共使用k个哈希函数

4. 查找时，通过同样的k个哈希函数，只有全是1时，判断该URL在黑名单内，有一个不是1，那么该URL不在黑名单内

提高m，会降低失误率，但随着m的逐渐增大，失误率的降低越来越慢。k与失误率的关系为一个对勾函数。

n(样本量)，p(失误率)

单样本的大小和布隆过滤器无关。

m=(n*lnp)/(ln2)^2

k=ln2*m/n=0.7*m/n

p=(1-e(-n*k/m))^k

两个参数都向上取整即可

哈希一致性

用于讨论数据服务器组织的问题，降低数据迁移的成本。

将哈希值的返回域想象成环，假设有三台机器，m1,m2,m3。

添加的时候只需要，将某个输入对应的哈希值，顺时针放到最近的服务器内即可

增加服务器：将m4与其逆时针最近服务器中间的数给到m4即可

删除服务器：数据全部给到顺时针最近的服务器内

存在的问题：

1. 机器数量少时做不到分布均衡

2. 增加或删除机器时会导致负载不均衡

使用虚拟节点解决：m1有一千个代表点，m2有一千个代表点，m3有一千个代表点，使用代表点来进行抢环。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
算法笔记（十）—— 哈希函数和哈希表

哈希表和哈希函数的相关概念及知识
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。