哈希表篇（启）

LuciferPluto

已于 2022-04-19 14:59:58 修改

阅读量244

点赞数 3

分类专栏：代码随想录刷题文章标签：哈希表 c++ 数据结构

于 2022-04-12 10:48:25 首次发布

本文链接：https://blog.csdn.net/Luciferzcy/article/details/124118536

版权

代码随想录刷题专栏收录该内容

17 篇文章 0 订阅

订阅专栏

哈希表篇-启

哈希表篇（启）

哈希表篇（启）

概念

哈希表

（Hash table/散列表）

在官方解释中：哈希表是根据关键码的值而直接进行访问的数据结构。
或者可以说是：
在哈希表上查找——根据给定的关键字K，用与散列存储时使用的同一哈希函数Hash（K）计算出散列地址，然后按此地址从哈希表中取出对应的元素。
也可以从散列的角度出发,
散列（Hash）同顺序表、链表、索引类似，都是储存集合或线性表的又一种方法。
散列的存储方法——以集合或线性表中的每个元素的关键字K为自变量，通过一种函数Hash（K）计算函数值，将该值解释为一块连续的存储空间（即数组空间）的单元地址（即下标），将该元素存储到这个单元中。
Hash（K）称为哈希函数——实现关键字到存储地址的映射。
Hash（K）的值称为哈希地址
使用的数组空间是集合或线性表进行散列存储的地址空间——被称为哈希表

其实我们可以那数组举例：
数组就是一张哈希表

哈希表中的关键码即数组的索引下标，通过下标来访问数组的元素。

由此引出哈希表能解决的第一个问题——

哈希表是根据关键码的值而直接进行访问的数据结构

举例：依旧拿数组举例

要查询一个名字是否在这所学校里。

要枚举的话时间复杂度是O(n)，但如果使用哈希表的话，只需要O(1)就可以做到。

我们只需要初始化把这所学校里学生的名字都存在哈希表里，在查询的时候通过索引直接就可以知道这位同学在不在这所学校里了。

此时如何把查找元素与关键码结合就是运用哈希表的关键——引出下面的哈希函数

哈希函数

（hash function）

在上文的举例中，我们需要把学生的姓名直接映射为哈希表上的索引，然后就可以通过查询索引下标快速知道这位同学是否在这所学校里了。

通过hashCode把名字转化为数值，一般hashcode是通过特定编码方式，可以将其他数据格式转化为不同的数值，这样就把学生名字映射为哈希表上的索引数字

通过哈希函数的转换，有一个问题非常明显——如果hashCode得到的数值大于哈希表的大小了，也就是大于tableSize了/或者学生的原本数量就大于创建的哈希表数量。

对于第一个问题，我们通过再次对数值做一个取模的操作，为了保证映射出来的索引数值都落在哈希表上。

对于第二个问题，避免不了会造成几位同学同时映射在哈希表的同一位置，这时，就需要哈希碰撞的帮助

哈希碰撞

仍以同学匹配举例：
若在该图中，使小李和小王都映射到了索引下标 1 的位置，出现了哈希碰撞。

一般哈希碰撞有两种解决方法， 拉链法和线性探测法。

拉链法

刚刚小李和小王在索引1的位置发生了冲突，那索性将发生冲突的元素都被存储在链表中。这样就可以通过索引找到小李和小王。

拉链法就是要选择适当的哈希表的大小，这样既不会因为数组空值而浪费大量内存，也不会因为链表太长而在查找上浪费太多时间。

线性探测法

使用线性探测法，一定要保证tableSize大于dataSize。我们需要依靠哈希表中的空位来解决碰撞问题。

例如冲突的位置，放了小李，那么就向下找一个空位放置小王的信息。所以要求tableSize一定要大于dataSize ，要不然哈希表上就没有空置的位置来存放冲突的数据了。如图所示：

常见的三种哈希结构

一般用如下三种数据结构来利用哈希表解决

数组
set（集合）
map（映射）

在C++中，set 和 map 分别提供以下三种数据结构，其底层实现以及优劣如下表所示

集合底层实现是否有序数值是否可以重复能否更改数值查询效率增删效率
std::set 红黑树有序否否 O(log n) O(log n)
std::multiset 红黑树有序是否 O(logn) O(logn)
std::unordered_set 哈希表无序否否 O(1) O(1)

std::unordered_set

底层实现为哈希表，std::set 和std::multiset 的底层实现是红黑树，红黑树是一种平衡二叉搜索树，所以key值是有序的，但key不可以修改，改动key值会导致整棵树的错乱，所以只能删除和增加

映射底层实现是否有序数值是否可以重复能否更改数值查询效率增删效率
std::map 红黑树 key有序 key不可重复 key不可修改 O(logn) O(logn)
std::multimap 红黑树 key有序 key可重复 key不可修改 O(log n) O(log n)
std::unordered_map 哈希表 key无序 key不可重复 key不可修改 O(1) O(1)

std::unordered_map

底层实现为哈希表，std::map 和std::multimap 的底层实现是红黑树。同理，std::map 和std::multimap 的key也是有序的（这个问题也经常作为面试题，考察对语言容器底层的理解）

集合	底层实现	是否有序	数值是否可以重复	能否更改数值	查询效率	增删效率
std::set	红黑树	有序	否	否	O(log n)	O(log n)
std::multiset	红黑树	有序	是	否	O(logn)	O(logn)
std::unordered_set	哈希表	无序	否	否	O(1)	O(1)

映射	底层实现	是否有序	数值是否可以重复	能否更改数值	查询效率	增删效率
std::map	红黑树	key有序	key不可重复	key不可修改	O(logn)	O(logn)
std::multimap	红黑树	key有序	key可重复	key不可修改	O(log n)	O(log n)
std::unordered_map	哈希表	key无序	key不可重复	key不可修改	O(1)	O(1)

使用方法：

当我们要使用集合来解决哈希问题的时候，优先使用unordered_set，因为它的查询和增删效率是最优的。
如果需要集合是有序的，那么就用set，如果要求不仅有序还要有重复数据的话，那么就用multiset。
在map 是一个key value 的数据结构，map中，对key是有限制，对value没有限制的，因为key的存储方式使用红黑树实现的。
虽然std::set、std::multiset 的底层实现是红黑树，不是哈希表，但是std::set、std::multiset 依然使用哈希函数来做映射，只不过底层的符号表使用了红黑树来存储数据
使用这些数据结构来解决映射问题的方法，我们依然称之为哈希法。 map也是一样的道理。

一些C++的经典书籍上例如STL源码剖析，说到了hash_set hash_map，这个与unordered_set，unordered_map又有什么关系呢？

实际上功能都是一样一样的，但是unordered_set在C++11的时候被引入标准库了，而hash_set并没有，所以建议还是使用unordered_set比较好，这就好比一个是官方认证的，hash_set，hash_map 是C++11标准之前民间高手自发造的轮子