左 . 算法---哈希函数/哈希表/布隆过滤器/一致性哈希算法专题

最新推荐文章于 2022-07-13 13:19:54 发布

duoduo18up

最新推荐文章于 2022-07-13 13:19:54 发布

阅读量1k

点赞数 3

分类专栏： -----算法文章标签：哈希函数布隆过滤器哈希表

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duoduo18up/article/details/80573040

版权

哈希函数：常见的功能就是打乱分布均匀随机输入无穷大输出却在一定范围内即使出现碰撞但是每个输出对应的输入个数概率均匀分布没有太大偏向一个重要的性质：如果在input域上均匀分布那么经过哈希并%m 运算后（在0~m-1范围内) 在输出域上同样均匀分布哈希表：经典结构：根据key算出具体的hashcode值（h)--...

摘要由CSDN通过智能技术生成

哈希函数：

常见的功能就是打乱分布均匀随机输入无穷大输出却在一定范围内

即使出现碰撞但是每个输出对应的输入个数概率均匀分布没有太大偏向

一个重要的性质：如果在input域上均匀分布那么经过哈希并%m 运算后（在0~m-1范围内) 在输出域上同样均匀分布

哈希表：

经典结构：

根据key算出具体的hashcode值（h)----决定了value的存放位置

若 h 位置处为空则直接将key1-value1 放入

若h位置处不为空检查是否已有key1 若已有则更新其对应value值否则直接按照链表格式，节点连在上一节点后面

经典应用：

场景题： 如果现在有一个超级大的文件，需要统计其中重复的字符串，我们要怎么办？

目前已知的： 可以供给1000台计算机读取细节不用关心只需要设计大概系统

思路：哈希的分流特性

具体操作： 将大文件读取很多行每一行都计算哈希值并模1000 则这些字符串均匀分布在0-999范围内

给电脑编号0-999 对应分布在一个范围内的一些字符串用同一台电脑进行处理达到大数据分流的效果（类似于分布式）

每台电脑只统计自己处理的重复字符串最后将结果进行汇总即可

总结：

大数据相关的问题有一半都是借助于哈希来解决因为哈希具有“相同的肯定相同不同的均匀分布”特性

在桶不够用时可以进行扩容代价也还可以接受一般是O(lognN)

设计一个RandomPool结构：

思路：

因为 getRandom()函数要求等概率随机返回结构中的任意一个key

所以一张哈希表在小样本情况下无法做到随机需要至少两张哈希表

举例：

现在有26个字符串

分别按照顺序放入两个表中两个表的key value 是对应的

用size统计此时表中数据个数最后getRandom()时候直接 Math.random()*26 来获取map2中对应key的value

部分代码：

解决难点： 删除过程中会在原有随机结构中出现好多洞导致随机性变差如何解决此问题？

思路：

z最终的总代码：

最低0.47元/天解锁文章

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
3
评论
左 . 算法---哈希函数/哈希表/布隆过滤器/一致性哈希算法专题

哈希函数：常见的功能就是打乱分布均匀随机输入无穷大输出却在一定范围内即使出现碰撞但是每个输出对应的输入个数概率均匀分布没有太大偏向一个重要的性质：如果在input域上均匀分布那么经过哈希并%m 运算后（在0~m-1范围内) 在输出域上同样均匀分布哈希表：经典结构：根据key算出具体的hashcode值（h)--...
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。