哈希表
哈希表也叫做散列表,一种非常常用的数据结构,增删改查均为O(1)。
目录
一、hash表原理
hash表是如何实现高效的?
//添加三个记录。
put( "Jack", 666);
put("Rose", 777);
put( "Kate", 888);
- 通过hash函数生成key所对应的下标 index
- 通过index 定位table中的位置。
- hash表是典型的空间换时间应用。
- 哈希表内部的数组元素,很多地方也叫 Bucket(桶),整个数组叫Buckets或者Bucket Array
二、 hash冲突
hash 冲突也叫hash 碰撞,其实就是两个不同的key计算出了相同的index。
解决方案
hash冲突是无可避免的,以下为解决哈希冲突的常见方法
-
开放定址法((Open Addressing)
按照一定规则向其他地址探测,直到遇到空桶 -
再哈希法 (Re-Hashing)
设计多个哈希函数 -
链地址法(Separate Chaining)
比如通过链表将同一index的元素串起来
Java 中的解决方案
默认使用单向链表将元素串起来,在添加元素时,可能会由单向链表转为红黑树来存储元素。
比如当哈希表容量≥64且单向链表的节点数量大于8时链表转换为红黑树。
红黑树节点数量少到一定程度时,又会转为单向链表。
JDK1.8中的哈希表是使用链表+红黑树解决哈希冲突
三、hash函数
哈希表中哈希函数的实现步骤大概如下
1 先生成 key的哈希值(必须是整数)
2.再让 key 的哈希值跟数组的大小进行相关运算,生成index
index = hashCode % table.size();
为了提高效率,可以使用&位运算取代%运算(前提:将数组的长度设计为2的幂(2") )
index = hashCode & (table.size() - 1);//tableSize必须是2的整数幂
一个优秀的hash函数需要具有良好的离散型,让hash值均匀分布,从而减低hash冲突的概率,提升性能。
四、通过key生成hash值
常见的key的类型有,整数、浮点数、字符串、自定义对象。
不同种类的 key,哈希值的生成方式不一样,但目标是一致的尽量让每个key 的哈希值是唯一的,尽量让key的所有信息参与运算。
自定义对象
自定义对象可以直接使用其内存地址为hash值。
整形的hash值
整形本身直接作为hash值。
int hashCode(int val)
{
return val;
}
浮点数的hash值
float
直接将内存中存储的二进制转换为整数。
int hashCode(float val)
{
return *(int*)(&val);
}
int main()
{
float f1 = 3.29812;
int ret = hashCode(f1);
cout << ret;//输出:1079186534
}
double
先将double转化为 long long ,再使tmp前32位与后32位进行异或运算。
int hashCode(double val)
{
unsigned long long tmp = *((long long*)&val);
return ((tmp >> 32) ^ (tmp));
}
string
整数 5489 可以转化为:
字符串是由若干个字符组成的,比如字符串jack,由j、a、c、k 四个字符组成(字符的本质就是一个整数)。
因此,jack的哈希值可以表示为
乘数n取31,因为31是一个奇素数 ,它的运算可以优化为: 31 * N == (N << 5) - N
int hashCode(string val)
{
int ret = 0;
for (int i = 0; i < val.size(); i++)
{
//ret = ret * 31 + val[i];
ret = (ret << 5) - ret + val[i];
}
return ret;
}