【C++】哈希概念、哈希表的实现和运用

最新推荐文章于 2024-06-30 13:08:33 发布

流年玄月

最新推荐文章于 2024-06-30 13:08:33 发布

阅读量905

点赞数

分类专栏： C++ 文章标签： c++

本文链接：https://blog.csdn.net/m0_64645696/article/details/124552045

版权

C++ 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

为什么会产生哈希的概念：

给一个常见的数组 { 501 ， 502 ， 503 ， 504 ， 505 ... 1000 } ，为了节省空间，一般采用通过相对映射的方式开辟空间，也就是开 500 的空间，0 对应 501 ，1 对应 502 ... ，如果要在数组里搜索一个数，它所用到的时间是 O(N)，几千几万个数据还好，但是上亿万个数据遇到极端情况就得搜索上亿万次，人们认为所用时间太长了，于是想到一个巧妙的方法，根据一个数组的数量决定它需要开辟的空间，再把其中的值 % 取模，把模后的值填进对应的下标位置中，需要搜索时，就可以以 O(1) 的极致速度查找，毫不夸张的说，这个查找速度就是最快的，没有之一，这种存储数据的方法我们称之为 -- 哈希。

哈希的原理：

哈希其实就是一种映射方法，它的实现方式简单来说就是：

存在一个 10 个空间大小的 vector ，从第一位开始，27 % 10（空间大小）= 7，于是放到下标为7的地址处，如果该数 % 后的对应下标以已经有数据了，那就往后 +1 位查看是否空缺，空缺就填上，1 % 10 = 1，1 存到 [ 1 ] ，11 % 10 也是 1 ，那就到 [ 2 ] 找，[ 2 ] 有了，就到 [ 3 ] 找，没有！那么 11 就存到 [ 3 ] 的下标处，再来个 13 ，% 后 [ 3 ]，有人占了就继续完后找，以此类推，这种 % 后下标已被占领，只能往后 +k 位找空位的方式，就叫哈希冲突。

一般我们尽可能的避免哈希冲突，所以需要计算它的负载因子，负载因子 = N (数据量) / 空间 ( .size() ) 。负载因子一般控制再 0.7 即可。

为例避免发生哈希冲突，数据之间互相踩踏，我们一般往后 + i^2 位，这种我们称之为：直接定址法。

解决哈希冲突两大类：

解决哈希冲突两种常见的方法是：闭散列和开散列。

闭散列：闭散列就是上面那种方法，设一个负载因子控制大小，空间大了，就容易发生哈希冲突。

开散列：就是我们常听到的哈希桶，它和闭散列不同的是，它的每一个下标都是一个向量 vector。当发生哈希冲突时，它不会跳到下一个，而是头插进该下标，原下边的数就挂在插入数据的后面，就如同一个桶一样。一般数据量 (N) == 开辟空间大小 ( size() )，每一个桶做成单链表即可，为什么是头插呢，因为头插方便，尾插还要找尾。

开散列如下图：

如果数据不是整型呢：

如果数据是 string 类型，网上有许多种哈希算法，最常见的有BKDRHash，它是让字符串中的每一个字符都转换成整型，再 *= 131 (一个常量) 再 += 起来，再 % 取下标。如果是结构体类型，记住，要找一个唯一存在的值取比较，比如一个人的身份证是唯一的，这样就可以避免混乱。

开散列与闭散列比较：

开散列需要应用到链地址法处理，感觉是所用空间大小比单纯存一个数据的闭散列要大。事实上：由于闭散列需要负载因子 <= 0.7，几百个还好，如果数据很大，那这个多出来的 0.3 就大多了，所以使用链地址法反而比开地址法节省存储空间。

流年玄月

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【C++】哈希概念、哈希表的实现和运用

为什么会产生哈希的概念：给一个常见的数组 { 501 ， 502 ， 503 ， 504 ， 505 ... 1000 } ，为了节省空间，一般采用通过相对映射的方式开辟空间，也就是开 500 的空间，0 对应 501 ，1 对应 502 ... ，如果要在数组里搜索一个数，它所用到的时间是 O(N)，几千几万个数据还好，但是上亿万个数据遇到极端情况就得搜索上亿万次，人们认为所用时间太长了，于是想到一个巧妙的方法，根据一个数组的数量决定它需要开辟的空间，再把其中的值 % 取模，把模后的值填进对应的.
复制链接

扫一扫

专栏目录