hash

最新推荐文章于 2024-05-09 17:43:18 发布

小弟是菜鸟

最新推荐文章于 2024-05-09 17:43:18 发布

阅读量192

点赞数 1

分类专栏：集合文章标签： hash hash算法

本文链接：https://blog.csdn.net/ZhanLunHui/article/details/90962274

版权

文章目录

前言

记得在18年8月份的时候，笔者去参加面试，当时有一道面试题：在一个存有40亿个整数的文件中，统计每个数字出现的次数。当时笔者第一个想法就是使用HashMap进行存储数据，典型的菜鸟思想。

后来笔者在公司做爬虫技术分享的时候，有一个同事问我：URL队列是怎么去重的。当时笔者的回答是：和URL队列并存的还有一个HashSet集合，这个集合存储所有的URL，在每次新URL入队列之前，先去HashSet集合中检查URL是否存在，如果不存在，那么在HashSet集合中存储一份，紧接着入队列。如果已经存在了，那么就不需要入队了。

这时候，同事又提出一个新的问题：如果当URL数量达到百万，甚至是千万数量的时候，hash值可能会出现重复。作为一个菜鸟,

既然问题已经摆出来了，那么我们就来研究一下，什么是hash，以及其用途。

1.散列

1.1 为什么出现散列技术

链表和数组可以按照我们的意愿排列元素的次序。但是，如果想要查看某个指定的元素，却又忘记了其所处的位置，就需要访问所有元素，直到找到为止，在查找的过程中，时间复杂度为O(n)。比如还有一种查找方法，将所有的关键字存储进二叉搜索树中，通过比较关键字，可以判断是否朝特定方向进行查找，其时间复杂度为O(㏒n)。

现在，我们来讲一个初中数学的知识：已知直线方程为y=2x+3，求当x值为3时，y的值？理所当然，2*3+3=9。现在我们可以判定，根据上面的一个方程，把任何实数作为x值输进去，都能得到y值。那么我们将其类比到要讲的散列技术：我们可以通过某个函数f，满足f(关键字)=值存储位置，我们就可以通过查找关键字(key)不需要比较就可获得值(value)的存储位置，这种技术称为散列技术。

采用散列技术将记录存储在一块连续的空间中，这块连续存储空间称为散列（哈希）表。换言之，散列表中存储的记录是地址，谁的地址，通过散列技术计算出的Value的地址。当我们需要获取值时，散列技术通过给定的k

最低0.47元/天解锁文章

小弟是菜鸟

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hash

文章目录前言1.散列1.1 为什么出现散列技术1.2 散列函数1.2.1 除数求余法1.2.2 平方取中法1.2.3 折叠法1.2.4 全域散列1.2.5 提取法1.2.6 基数转换法1.2.7 随机数法1.2.4 综合法1.2.5 hash函数的总结1.3 处理散列冲突1.3.1 开放定址法1.3.2 链接法1.3.3 桶定址前言记得在18年8月份的时候，笔者去参加面试，当时有一道面试题：在...
复制链接

扫一扫

专栏目录