散列函数(或散列算法,又称哈希函数,英语:Hash Function)是一种从任何一种数据中创建小的数字“指纹”的方法。散列函数把消息或数据压缩成摘要,使得数据量变小,将数据的格式固定下来。该函数将数据打乱混合,重新创建一个叫做散列值的指纹。散列值通常用来代表一个短的随机字母和数字组成的字符串。好的散列函数在输入域中很少出现散列冲突。在散列表和数据处理中,不抑制冲突来区别数据,会使得数据库记录更难找到。
散列表是散列函数的一个主要应用,使用散列表能够快速的按照关键字查找数据记录。例如,在英语字典中的关键字是英文单词,和它们相关的记录包含这些单词的定义。在这种情况下,散列函数必须把按照字母顺序排列的字符串映射到为散列表的内部数组所创建的索引上。
散列表散列函数的几乎不可能/不切实际的理想是把每个关键字映射到唯一的索引上(参考完美散列),因为这样能够保证直接访问表中的每一个数据。
一个好的散列函数(包括大多数加密散列函数)具有均匀的真正随机输出,因而平均只需要一两次探测(依赖于装填因子)就能找到目标。同样重要的是,随机散列函数不太会出现非常高的冲突率。但是,少量的可以估计的冲突在实际状况下是不可避免的(参考生日悖论或鸽洞原理)。
在很多情况下,heuristic散列函数所产生的冲突比随机散列函数少的多。Heuristic函数利用了相似关键字的相似性。例如,可以设计一个heuristic函数使得像FILE0000.CHK, FILE0001.CHK, FILE0002.CHK,等等这样的文件名映射到表的连续指针上,也就是说这样的串行不会发生冲突。相比之下,对于一组好的关键字性能出色的随机散列函数,对于一组坏的关键字经常性能很差,这种坏的关键字会自然产生而不仅仅在攻击中才出现。性能不佳的散列函数表意味着查找操作会退化为费时的线性搜索。
常用的解决hash冲突的方法有:开放定址法、链地址法、再哈希法。
应用hash表时,散列函数的选择或设计,是个很有技术含量的事情。
本文需要用到一个散列函数将一个网址,例如http://www.cnblogs.com/jjdiaries映射成一个数字。
一个实用的将字符串映射成整数的散列函数如下:
//将网址字符串转换成一个整数 unsigned long hash(char *key) { unsigned long h=0; while(*key) { h=(h<<4)+*key++; unsigned long g=h&0Xf0000000L; if(g) h^=g>>24; h&=~g; } return h%TABLELEN; }
本文中利用链地址法解决冲突构建的一个hash表,最终的示意图如下图所示。(从百度百科中来的,图仅仅用来示意,与代码无关)
下面的代码实现的功能为:将一个网址进行hash,并存放于hash表中,利用hash表统计每个网址的访问次数。
链表节点包含三个元素:1)存放指向存放网址的指针。2)该网址出现的次数。3)指向下一个节点的指针。
/******************************************* =================JJ日记===================== 作者: JJDiaries(阿呆) 邮箱:JJDiaries@gmail.com 日期: 2013-11-13 ============================================ 哈希表:为实现快速查找而生。 实现一个散列表,并用链表法解决冲突。 应用实例:用一个hashTable记录网站中每个页面的访问量。 *******************************************/ /*================JJ日记===================== 作者: JJDiaries(阿呆) 邮箱:JJDiaries@gmail.com 日期: 2013-11-13 ============================================*/ #include <stdio.h> #include <stdlib.h> #include <string.h> #define TABLELEN 1024 //hash表大小 #define SITELEN 256 //每个网址的最大长度 struct node{ char *website; //存放网址 int counts; //存放该网址访问次数 struct node *next; //指向下一个节点 }; static struct node *HashTable[TABLELEN]={NULL}; //将网址字符串转换成一个整数 unsigned long hash(char *key) { unsigned long h=0; while(*key) { h=(h<<4)+*key++; unsigned long g=h&0Xf0000000L; if(g) h^=g>>24; h&=~g; } return h%TABLELEN; } //将一个节点存入hash表 int insert(struct node *T[],char *website) { if(website==NULL) return -1; int index=hash(website); //为空,说明此前没有此类记录,分配一个节点,用于存放新的网址,并将其链入hash表 if(HashTable[index]==NULL){ struct node *tmp=(struct node*)malloc(sizeof(struct node)); if(tmp==NULL) return -1; tmp->website=(char*)malloc(strlen(website)+1); if(tmp->website==NULL) return -1; strncpy(tmp->website,website,strlen(website)+1); //将新分配的节点链到hash表的某一个槽的链表头部 tmp->next=NULL; HashTable[index]=tmp; tmp->counts=1; } else{//index槽不为空,则需要比较该网址内容,判断其是否已经存在。 struct node *tmp=HashTable[index]; while(tmp!=NULL && strcmp(website,tmp->website)!=0) tmp=tmp->next; if(tmp)//说明website已经存在,将其counts加1 tmp->counts++; else{ tmp=(struct node*)malloc(sizeof(struct node)); if(tmp==NULL) return -1; tmp->website=(char*)malloc(strlen(website)+1); if(tmp->website==NULL) return -1; strncpy(tmp->website,website,strlen(website)+1); //将新分配的节点链到hash表的某一个槽的链表头部 tmp->next=HashTable[index]->next; HashTable[index]->next=tmp; tmp->counts=1; } } return 0; } //查看网址website是否有访问记录,如果有,则返回其访问次数,否则返回-1 int search(struct node *T[],char *website) { int index=hash(website); //为空,说明此前没有此website记录 if(HashTable[index]==NULL) return -1; struct node *tmp=HashTable[index]; while(tmp!=NULL && strcmp(website,tmp->website)!=0) tmp=tmp->next; if(tmp)//说明website已经存在,将其counts加1 return tmp->counts; return -1; } //free resources that allocated with malloc void finit_table(struct node *T[]) { int i; struct node *tmp,*del; for(i=0;i<TABLELEN;++i){ if(T[i]==NULL) continue; tmp=T[i]->next; while(tmp!=NULL){ del=tmp; tmp=tmp->next; free(del); } free(T[i]); } } int main() { char * websites[]={"www.baidu.com", "www.google.com", "www.google.com", "www.bing.com", "www.google.com", "www.jjdiaries.com", "www.baidu.cn"}; int i; for(i=0;i<7;++i) insert(HashTable,websites[i]); printf("www.google.com accessed times is :%d\n",search(HashTable,"www.google.com")); printf("www.baidu.com accessed times is :%d\n",search(HashTable,"www.baidu.com")); //note:free resource finit_table(HashTable); }
程序的运行结果如下: viidiot@ubuntu:$ ./hash www.google.com accessed times is :3 www.baidu.com accessed times is :1 看到有些人说“通过散列函数计算出来的是散列地址,我没弄明白这个地址是怎么回事”,从上面的程序我们可以看到散列地址,其实就是我们这里的hash表下标(或“槽号”)。通过散列函数散列后,就得到网址应该所处的“槽号”(数组下标),然后再到这个槽里面去查找对应网址的访问次数。