哈希表
定义
哈希表也叫散列表,是根据关键码值(Key value)而直接进行访问的数据结构,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数 f ( k e y ) f(key) f(key)叫做散列函数,存放记录的数组叫做散列表。
给定表M,存在函数 f ( k e y ) f(key) f(key),对任意给定的关键字值key,代入函数后若能得到包含该关键字的记录在表中的地址,则称表M为哈希(Hash)表,函数 f ( k e y ) f(key) f(key)为哈希(Hash) 函数。
简单来说就是给出key值,我们根据哈希函数 f ( k e y ) f(key) f(key)计算处key值存放的地址,也就是 元 素 地 址 = f ( k e y ) 元素地址=f(key) 元素地址=f(key)
冲突
对不同的关键字key可能得到同一散列地址,即 k 1 ≠ k 2 k1\not=k2 k1=k2,而 f ( k 1 ) = f ( k 2 ) f(k1)=f(k2) f(k1)=f(k2),这种现象称为冲突。具有相同函数值的关键字对该散列函数来说称做同义词。综上所述,根据散列函数 f ( k ) f(k) f(k)和处理冲突的方法将一组关键字映射到一个有限的连续的地址集(区间)上,并以关键字在地址集中的“像”作为记录在表中的存储位置,这种表便称为散列表,这一映射过程称为散列造表或散列,所得的存储位置称散列地址。
换句话说就是当不同的key通过哈希函数找到了同一个存放位置,那么如果都存放到这个位置就会发生碰撞,这个现象就是冲突。
解决冲突的方法主要有:
- 开放寻址法
- 公共溢出区法 :建立一个特殊存储空间,专门存放冲突的数据。此种方法适用于数据和冲突较少的情况。
- 再散列法 :准备若干个hash函数,如果使用第一个hash函数发生了冲突,就使用第二个hash函数,第二个也冲突,使用第三个……
- 链地址法 :当发生冲突时我们将其链接到该地址之后构成链表,如下图所示
哈希表的时间复杂度
为什么哈希表的时间复杂度为 O ( 1 ) O(1) O(1) ?
首先,哈希表的实质是一个数组,对于数组的来说我们只需要直到索引就可以查到需要的元素,其时间复杂度为 O ( 1 ) O(1) O(1) ,所以所理想状态下哈希表的时间复杂度为 O ( 1 ) O(1) O(1) 。
但实际情况下并不是这样的,有可能发生冲突,发生冲突之后就在该地址后继续接冲突元素,使其成为链表,而对于链表的时间复杂度为 O ( n ) O(n) O(n) 。
哈希表的查询过程:
- 判断key,根据key算出索引。
- 根据索引获得索引位置所对应的键值对链表。
- 遍历键值对链表,根据key找到对应的Entry键值对。
- 拿到value。
因此影响哈希表的查询的查询时间复杂度最主要的是第三步。实际应用中要尽可能的避免发生冲突。一旦所有的key值发生冲突则哈希表就退化为一条链表,时间复杂度为 O ( n ) O(n) O(n) 。
所有的key值发生冲突则哈希表就退化为一条链表,时间复杂度为 O ( n ) O(n) O(n) 。
所以哈希表的时间复杂度为 O ( 1 ) O(1) O(1)并不是严格意义上的,理想状态下是这样。说哈希表的时间复杂度为 O ( 1 ) O(1) O(1) 是因为实际生产中可以采用一些策略避免出现冲突,大多数情况下,不会发生冲突。