如何创建Hash表
对于把K(键)-V(值)这样的键值对插入Hash表中,需要执行两个步骤:
1.使用散列函数将K转换为小整数(称为其哈希码)。
2.哈希码用于查找索引(hashCode%arrSize),并且首先搜索该索引处的整个链表(单独链)以查找已存在的K。
3.如果找到,则更新其值,如果不是,则将K-V对存储为列表中的新节点。
复杂性和负载因子
- 第一步,所用时间取决于K和散列函数。
例如,如果键是字符串“abcd”,那么它的散列函数可能取决于字符串的长度。 但是对于非常大的n值,与n相比,映射中的条目数,密钥的长度几乎可以忽略不计,因此可以认为散列计算在恒定时间内发生,即O(1)。
-
第二步,需要遍历存在于该索引处的K-V对列表。 为此,最坏的情况可能是所有n个条目都在相同的索引处。 因此,时间复杂度将是O(n)。
但是,已经进行了足够的研究以使散列函数产生的键在数组中均匀分布,因此这几乎不会发生。 -
因此,平均而言,如果有n个条目且b是数组的大小,则每个索引上将有n / b个条目。 此值n /
b称为负载因子,表示hash表上的负载情况。 -
该负载因子(Load Factor)需要保持较低,因此一个索引处的条目数较少,因此复杂度几乎恒定,即O(1)。
Rehashing
顾名思义,rehashing意味着再次散列。 基本上,当负载因子增加到超过其预定值(负载因子的默认值为0.75)时,复杂性就会增加。因此,为了克服这个问题,数组的大小增加(加倍)并且所有值再次进行散列并存储在新的双倍大小的数组中,以保持低负载因子和低复杂度。
为什么要Rehashing
进行重新散列是因为每当将键值对插入到映射中时,负载因子增加,这意味着时间复杂度也如上所述地增加。 这可能无法提供O(1)所需的时间复杂度。
因此,必须进行重新散列,增加Bucket Array的大小,以减少负载因子和时间复杂度。
如何Rehashing
可以按如下方式进行Rehashing:
-
对于每次向hash表添加新条目,请检查负载因子。
-
如果它大于其预定义值(如果没有给出,则默认值为0.75),然后重新散列。
-
对于Rehashing,创建一个比以前大小加倍的新数组,并使其成为新的Bucket Array。
-
然后遍历旧Bucket Array中的每个元素,并为每个元素调用insert()函数,以便将其插入到新的更大的bucket数组中。