C++——关联式容器（下）——哈希结构

最新推荐文章于 2024-07-31 16:47:53 发布

Joker Zxc

最新推荐文章于 2024-07-31 16:47:53 发布

阅读量348

点赞数

分类专栏： C++ 文章标签： C++ Hash详解哈希表

本文链接：https://blog.csdn.net/qq_42659468/article/details/99689045

版权

C++ 专栏收录该内容

32 篇文章 12 订阅

订阅专栏

哈希结构的关联式容器：

unordered_map
unordered_set
unordered_multiset
unordered_multimap

unordered系列的关联式容器之所以效率比较高，是因为其底层使用了哈希结构。

哈希概念：

顺序结构以及平衡树中，元素关键码与其存储位置之间没有对应的关系，因此在查找一个元素时，必须要经过关键码的多次比较。顺序查找时间复杂度为O(N)，平衡树中为树的高度，即O(log2 N)，搜索的效率取决于搜索过程中元素的比较次数。

理想的搜索方法：可以不经过任何比较，一次直接从表中得到要搜索的元素。如果构造一种存储结构，通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系，那么在查找时通过该函数可以很快找到该元素。

当向该结构中：

插入元素:

根据待插入元素的关键码，以此函数计算出该元素的存储位置并按此位置进行存放

搜索元素：

对元素的关键码进行同样的计算，把求得的函数值当做元素的存储位置，在结构中按此位置取元素比较，若关键码相等，则搜索成功。

该方式即为哈希(散列)方法，哈希方法中使用的转换函数称为哈希(散列)函数，构造出来的结构称为哈希表 (Hash Table)(或者称散列表) 。

示例：

哈希：（Hash）

Hash ：散列，通过关于键值(key)的函数，将数据映射到内存存储中一个位置来访问。这个过程叫做Hash，这个映射函数称做散列函数，存放记录的数组称做散列表(Hash Table)，又叫哈希表。

Hash的查找方法：

现在有一组数据：11，12，13，14，15，16；

我们现在要找16这个数据，按照其他的数组或者是链表就需要依次遍历，遍历到最后确定是数据16，或者没有。时间复杂度O(n)；

按照Hash的查询方式，散列函数为H[key] = key % 5；则集合元素对应的hash值分别为：1，2，3，4，0，1。

查找数据16只需要在Hash值为1的集合中寻找即可，这时候会发现有两个1，这就是哈希冲突，后面会讲。

如果访问没有哈希冲突的元素，例如查找数据2，可以直接访问哈希值为2的值。

因此：hash时间复杂度最差才为O(n)，最优情况下只需要O(1)；

数据很多的时候就不能数组或者链表查看，太慢了。

Hash散列函数的确定：

我们很清晰地看到，Hash表的查找是通过散列函数确定的，所以关键散列函数的确定。它主要有六种方法。

方法一：直接定址法

取Key或者Key的某个线性函数值为散列地址。例如：Hash(k) = k，或者Hash(k) = a*k + b，(a\b均为常数)，就线性方程。

方法二：数字分析法

需要知道Key的集合，并且Key的位数比地址位数多，选择Key数字分布均匀的位。设有N个d位数，每一位可能有r种不同的符号。这r种不同的符号在各位上出现的频率不一定相同，可能在某些位上分布均匀些，每种符号出现的机会均等；在某些位上分布不均匀，只有某几种符号经常出现。可根据散列表的大小，选取其中各种符号分布均匀的若干位作为散列地址。

如下例子：Hash(Key) 取4位：

列数： 1 (2) 3 (4) 5 (6) (7) 8 9

key1： 1 1 3 2 7 5 8 8 9

key2： 1 2 3 3 7 6 7 8 9

key3： 1 3 2 4 7 7 6 8 9

key4： 5 4 3 5 3 8 5 4 5

其中(2、4、6、7) 这4列数字无重复，分布较均匀，可以看看其他的都是重复的，对应概念中分布均匀含义，取此4列作为Hash(Key)的值。

Hash(Key1)：1258

Hash(Key2)：2367

Hash(Key3)：3476

Hash(Key4)：4585

方法三：平方取中法

先计算构成关键码的标识符的内码的平方，然后按照散列表的大小取中间的若干位作为散列地址。（取Key平方值的中间几位作为Hash地址）。因为在设置散列函数时不一定知道所有关键字，选取哪几位不确定。一个数的平方的中间几位和数本身的每一位都有关，这样可以使随机分布的Key，得到的散列地址也是随机分布的。

例如：Hash(Key) 取4位

Key值	Key值的平方	Hash(Key)
123123	15159273129	5927
456456	208352079936	5207

方法四：折叠法

把关键码自左到右分为位数相等的几部分，每一部分的位数应与散列表地址位数相同，只有最后一部分的位数可以短一些。把这些部分的数据叠加起来，就可以得到具有关键码的记录的散列地址。（将关键字分割成位数相同的几部分（最后一部分的位数可以不同），然后取这几部分的叠加和（舍去进位）作为哈希地址。当Key的位数较多的时候数字分布均匀适合采用这种方案）

两种方法：分为移位法和折叠法。

例子：若Key为下列数串，地址位数为7，两种方法的Hash(key)分别如下：

Key：1638343 | 1538625 | 8448743| 23656

表中的结果 = 1638343 + 1538625 + 8448743 + 23656（几段的加法）

	移位折叠法：		折叠折叠法：
第一段	1638343	是本来数字	1638343	是本来数字
第二段	1538625	是本来数字	5268351	把数字逆置了
第三段	8448743	是本来数字	3478448	把数字逆置了
第四段	23656	是本来数字	65632	把数字逆置了
结果：	11649367		10450774
Hash(Key)	1649367	取七位	450774	取七位