什么是hash表
哈希表可以理解为一个加强版的数组。
数组可以通过索引(非负整数)在 O(1)
的时间复杂度内查找到对应元素。
哈希表是类似的,可以通过 key
在 O(1)
的时间复杂度内查找到这个 key
对应的 value
。key
的类型可以是数字、字符串等多种类型。
怎么做的?特别简单,哈希表的底层实现就是一个数组(我们不妨称之为 table
)。它先把这个 key
通过一个哈希函数(我们不妨称之为 hash
)转化成数组里面的索引,然后增删查改操作和数组基本相同。
所以hash表的本质就是一个加强版的数组(数组的索引是预设好的非负整数,不需要额外计算),hash表是索引是通过一个函数计算得到。那么要保证性能就是保证这个hash函数要是O(1)。
hash表可能会存在hash冲突的意思是不同的key计算出来的索引位置是一个,那么怎么解决呢,常用的是拉链法和开放寻址法。是纵向延伸和横向延伸两种思路
拉链法
相当于是哈希表的底层数组并不直接存储 value
类型,而是存储一个链表,当有多个不同的 key
映射到了同一个索引上,这些 key -> value
对儿就存储在这个链表中,这样就能解决哈希冲突的问题。
线性探查法
一个 key
发现算出来的 index
值已经被别的 key
占了,那么它就去 index + 1
的位置看看,如果还是被占了,就继续往后找,直到找到一个空的位置为止。
负载因子
是一个哈希表装满的程度的度量,一般来说,负载因子越大,说明哈希表里面的 key-value
对越多,哈希冲突的概率就越大。
负载因子的计算公式也很简单,就是 size / table.length
。其中 size
是哈希表里面的 key-value
对的数量,table.length
是哈希表底层数组的容量。
你不难发现,用拉链法实现的哈希表,负载因子可以无限大,因为链表可以无限延伸;用线性探查法实现的哈希表,负载因子不会超过 1。
像 Java 的 HashMap,允许我们创建哈希表时自定义负载因子,不设置的话默认是 0.75
,这个值是经验值,一般保持默认就行了。
哈希表的增删查改效率一定是 O(1)
吗?
不一定,只有哈希函数的复杂度是 O(1)
,且合理解决哈希冲突的问题,才能保证增删查改的复杂度是 O(1)
。
哈希冲突好解决,都是有标准答案的。关键是哈希函数的计算复杂度。如果使用了错误的 key
类型,比如前面用 ArrayList
作为 key
的例子,那么哈希表的复杂度就会退化成 O(N)
。