1.什么是散列表?
散列表(哈希表)能根据某个特定的映射函数,来定位到表中一个位置来访问记录,以加快查找的速度。
举个简单的例子,就比如现有一个数组(NULL代表空值):
位置i | arr[0] | arr[1] | arr[2] | arr[3] | arr[4] | arr[5] | arr[6] | arr[7] | arr[8] |
---|---|---|---|---|---|---|---|---|---|
值 | 0 | NULL | 2 | NULL | 4 | NULL | 6 | NULL | 8 |
在这个数组里想查找‘2’这个元素,直接arr[2]即可,但是很明显该空间有多个‘NULL’值,降低了空间使用效率。
为了提升利用率,用散列函数j=i/2来存储上述数据:
位置j | arr[0] | arr[1] | arr[2] | arr[3] | arr[4] |
---|---|---|---|---|---|
值 | 0 | 2 | 4 | 6 | 8 |
想查找‘8’这个元素时,8/2即可算出该元素位置,arr[4]为所求。
2.散列表的冲突?
在存储一组数据时,根据散列函数进行计算即可得出数据存储在哪个位置。但是难免会有两个数据经过散列函数运算后,求出了同一个存储位置。比如给出一组数据(0,2,4),通过j=i%5这个函数存储在散列表里。0存储在arr[0],2存储在arr[2], 4存储在arr[4],目前没问题。如果再让你存一个数‘7’呢?经过计算7%5=2,应该存储在arr[2]这个位置,但是之前‘2’这个元素占用了这片空间,所以叫做“冲突”。
解决冲突及代码实现
如果冲突了,不能覆盖掉前面的有效信息,也不能不进行存储。所以需要解决冲突。这里仅介绍线性探测和二次探测再散列这两种方法。
1.线性探测就是:发现目标地址被占用了,就指针+1,看看下一个空间可不可用,如果还是被占用,就继续往下找,知道找到空闲空间为止,然后在这里存下当前这个数。
代码如下:
#include<stdio.h>
#include<string.h>
void hash(int index[],int hashSpace,int num)
{//hash the num into index[] whose size is hashSpace
//为了方便,这里hashSpace既是散列表空间,又是散列函数的MOD值
int tmp=num%hashSpace;
while(1)
{
if(index[tmp]==-1)
{
index[tmp]=num;
break;
}
else tmp=(tmp+1)%hashSpace;
}
}
int main()
{//hashSpace should be greater than n
int hashSpace=10;
int n=7;
int index[hashSpace];
memset(index,-1,sizeof(index));//-1代表还未使用这片空间
int data[7]={4,12,2,5,5,6,3};
for(int i=0;i<n;i++) hash(index,hashSpace,data[i]);
for(int i=0;i<hashSpace;i++)printf("[%3d] ",index[i]);
puts("");
}
2.二次探测就是:以平方数形式进行跳跃查找,线性探测每次都是+1去寻找下一片空间,而二次探测是以+1,-1,+2,-2,+4,-4,+9,-9,….去寻找下一个探测空间。
代码如下:
#include<stdio.h>
#include<string.h>
#include<stdlib.h>
void hash(int index[],int hash_len,int num)//hash num into index[] where mod is hash_len
{
int h = num%hash_len;//哈希取模
int conflic = 1;//用于解决冲突的计数器
int inte=0;
while(1)
{
if(index[h]==-1)
{
index[h] = num;
break;
}
else
{
h= h+conflic*conflic-inte*inte;
if((h+conflic*conflic-inte*inte)>=hash_len)
{
h%=hash_len;
}
inte++;
conflic++;
}
}
}
int main()
{
int hash_len=10;
int key[10]= {2,5,2,1,3,5,7,8,6,3};
int n=10;
int index[1000];
memset(index,-1,sizeof(index));//-1代表还未使用这片空间
for(int i=0; i<n; i++)
{
hash(index,hash_len,key[i]);
}
for(int i=0; i<20; i++)printf("[%d] ",index[i]);
return 0;
}