散列表(Hash table)
也称为 哈希表
。是字典的一种抽象。比如说你要查一个字,通过这个字的拼音首字母,找到这个字的页码,然后翻到那页找就行了。这种方法直接把查找 时间复杂度
降到了常数。但是要牺牲一定的计算索引的时间。计算索引的那个函数称为 哈希函数
( 散列函数``)。如果两个不同的
key`算出了同一个索引,此时就要用到一定的方法来解决哈希冲突。
哈希函数
哈希函数
一般具有如下特点。
- 相等的
key
产生相等的哈希值
- 计算简单方便
哈希值
均匀分布。(若过度集中,则容易使效率降低到o(n)
)
构造 哈希函数
有多种方法,这里不详细讲解。
哈希冲突
若两个不相等的 key
产生了相等的 哈希值
,这时则需要采用 哈希冲突
。
拉链法
Java
标准库的 HashMap
基本上就是用 拉链法
实现的。 拉链法
的实现比较简单,将链表和数组相结合。也就是说创建一个链表数组,数组中每一格就是一个链表。若遇到哈希冲突,则将冲突的值加到链表中即可。
实现步骤
- 得到一个
key
- 计算
key
的hashValue
- 根据
hashValue
值定位到data[hashValue]
。(data[hashValue]
是一条链表) - 若
data[hashValue]
为空则直接插入 - 不然则添加到链表末尾
这里需要注意的是, 哈希函数
必须保证 哈希值
的 均匀分布
,若全部集中在一条链表中,则 时间复杂度
和顺序链表相同。
还有一点则是数组的大小,若你能估计数据的大小,则直接指定即可,否则就需要 动态扩充
数组。
//拉链法实现
#include <string.h>
#include <stdio.h>
#include <stdlib.h>
typedef struct node{
char *name;//字段名
char *desc;//描述
struct node *next;
}node;
#define HASHSIZE 100 //hash表长度
static node* hashtable[HASHSIZE];//定义一个hash数组,该数组的每个元素是一个hash结点指针,并且由于是全局静态变量,默认初始化为NULL
unsigned int hash(char *s)
{//哈希函数
unsigned int h=0;
for(;*s;s++)
h=*s+h*31;//将整个字符串按照特定关系转化为一个整数,然后对hash长度取余
return h%HASHSIZE;
}
node* lookup(char *str)
{
unsigned int hashvalue = hash(str);
node* np = hashtable[hashvalue];
for( ; np!=NULL; np = np->next)
{//这里是链地址法解决的冲突,返回的是第一个链表结点
if(!strcmp(np->name, str))//strcmp相等的时候才返回0
return np;
}
return NULL;
}
char* search(char* name)
{//对hash表查找特定元素(元素是字符串)
node* np=lookup(name);
if(np==NULL)
return NULL;
else
return np->desc;
}
node* malloc_node(char* name, char* desc)
{//在堆上为结点分配内存,并填充结点
node *np=(node*)malloc(sizeof(node));
if(np == NULL)
return NULL;
np->name = name;
np->desc = desc;
np->next = NULL;
return np;
}
int insert(char* name, char* desc)
{
unsigned int hashvalue;
hashvalue = hash(name);
//头插法,不管该hash位置有没有其他结点,直接插入结点
node* np = malloc_node(name, desc);
if (np == NULL) return 0;//分配结点没有成功,则直接返回
np->next = hashtable[hashvalue];
hashtable[hashvalue] = np;
return 1;
}
/* A pretty useless but good debugging function,
which simply displays the hashtable in (key.value) pairs
*/
void displayHashTable()
{//显示hash表元素(不包括空)
node *np;
unsigned int hashvalue;
for(int i=0; i < HASHSIZE; ++i)
{
if(hashtable[i] != NULL)
{
np = hashtable[i];
printf("\nhashvalue: %d (", i);
for(; np != NULL; np=np->next)
printf(" (%s.%s) ", np->name, np->desc);
printf(")\n");
}
}
}
void cleanUp()
{//清空hash表
node *np,*tmp;
for(int i=0;i < HASHSIZE; ++i)
{
if(hashtable[i] != NULL)
{
np = hashtable[i];
while(np != NULL)
{
tmp = np->next;
free(np->name);
free(np->desc);
free(np);
np = tmp;
}
}
}
}
int main()
{
char* names[]={"First Name","Last Name","address","phone","k101","k110"};
char* descs[]={"Kobe","Bryant","USA","26300788","Value1","Value2"};
for(int i=0; i < 6; ++i)
insert(names[i], descs[i]);
printf("we should see %s\n",search("k110"));
insert("phone","9433120451");//这里计算的hash是冲突的,为了测试冲突情况下的插入
printf("we have %s and %s\n",search("k101"),search("phone"));
displayHashTable();
cleanUp();
return 0;
}
除留余数法:http://www.nowamagic.net/academy/detail/3008040
除留余数法介绍
除留余数法此方法为最常用的构造散列函数方法。对于散列表长为m的散列函数公式为:
f( key ) = key mod p ( p ≤ m )
mod是取模(求余数)的意思。事实上,这方法不仅可以对关键字直接取模,也可在折叠、平方取中后再取模。
一个例子
有一个关键字,它有12个记录,现在我们要针对它设计一个散列表。如果采用除留余数法,那么可以先尝试将散列函数设计为f(key) = key mod 12的方法。比如29 mod 12 = 5,所以它存储在下标为5的位置。
![](https://i-blog.csdnimg.cn/blog_migrate/44620a069847ccee2c0a80b4f9680a7b.png)
不过这也是存在冲突的可能的,因为12 = 2×6 = 3×4。如果关键字中有像18(3×6)、30(5×6)、42(7×6)等数字,它们的余数都为6,这就和78所对应的下标位置冲突了。
![](https://i-blog.csdnimg.cn/blog_migrate/5063a08160549eaaa4259ec15e267c63.png)
但是我们如果不选用p=12来做除留余数法,而选用p=ll,则结果如下:
![](https://i-blog.csdnimg.cn/blog_migrate/bbda48140c62c28bdbb403134fffb240.png)
这个时候就只有12和144有冲突,相对来说,就要好很多了。
如何合理选取p值
使用除留余数法的一个经验是,若散列表表长为m,通常p为小于或等于表长(最好接近m)的最小质数或不包含小于20质因子的合数。