hash表拉链法解决冲突

最新推荐文章于 2024-05-20 12:57:27 发布

致一

最新推荐文章于 2024-05-20 12:57:27 发布

阅读量1.5w

点赞数 13

基础算法专栏收录该内容

19 篇文章 1 订阅

订阅专栏

散列表(Hash table)

也称为 哈希表 。是字典的一种抽象。比如说你要查一个字，通过这个字的拼音首字母，找到这个字的页码，然后翻到那页找就行了。这种方法直接把查找 时间复杂度 降到了常数。但是要牺牲一定的计算索引的时间。计算索引的那个函数称为 哈希函数 ( 散列函数``)。如果两个不同的 key`算出了同一个索引，此时就要用到一定的方法来解决哈希冲突。

哈希函数

哈希函数 一般具有如下特点。

相等的 key 产生相等的 哈希值
计算简单方便
哈希值 均匀分布。(若过度集中，则容易使效率降低到 o(n) )

构造 哈希函数 有多种方法，这里不详细讲解。

哈希冲突

若两个不相等的 key 产生了相等的 哈希值 ，这时则需要采用 哈希冲突 。

拉链法

Java 标准库的 HashMap 基本上就是用 拉链法 实现的。 拉链法 的实现比较简单，将链表和数组相结合。也就是说创建一个链表数组，数组中每一格就是一个链表。若遇到哈希冲突，则将冲突的值加到链表中即可。

实现步骤

得到一个 key
计算 key 的 hashValue
根据 hashValue 值定位到 data[hashValue] 。( data[hashValue] 是一条链表)
若 data[hashValue] 为空则直接插入
不然则添加到链表末尾

这里需要注意的是， 哈希函数 必须保证 哈希值 的 均匀分布 ，若全部集中在一条链表中，则 时间复杂度 和顺序链表相同。

还有一点则是数组的大小，若你能估计数据的大小，则直接指定即可，否则就需要 动态扩充 数组。

//拉链法实现
#include <string.h>
#include <stdio.h>
#include <stdlib.h>

typedef struct node{
    char *name;//字段名
    char *desc;//描述
    struct node *next;
}node;

#define HASHSIZE 100 //hash表长度
static node* hashtable[HASHSIZE];//定义一个hash数组，该数组的每个元素是一个hash结点指针,并且由于是全局静态变量,默认初始化为NULL

unsigned int hash(char *s)
{//哈希函数
    unsigned int h=0;
    for(;*s;s++)
        h=*s+h*31;//将整个字符串按照特定关系转化为一个整数，然后对hash长度取余
    return h%HASHSIZE;
}

node* lookup(char *str)
{
    unsigned int hashvalue = hash(str);
    node* np = hashtable[hashvalue];
    for( ; np!=NULL; np = np->next)
    {//这里是链地址法解决的冲突,返回的是第一个链表结点
        if(!strcmp(np->name, str))//strcmp相等的时候才返回0
            return np;
    }
    return NULL;
}

char* search(char* name)
{//对hash表查找特定元素(元素是字符串）
    node* np=lookup(name);
    if(np==NULL)
        return NULL;
    else
        return np->desc;
}

node* malloc_node(char* name, char* desc)
{//在堆上为结点分配内存，并填充结点
    node *np=(node*)malloc(sizeof(node));
    if(np == NULL)
        return NULL;
    np->name = name;
    np->desc = desc;
    np->next = NULL;
    return np;
}

int insert(char* name, char* desc)
{
    unsigned int hashvalue;
    hashvalue = hash(name);
    //头插法，不管该hash位置有没有其他结点，直接插入结点
    node* np = malloc_node(name, desc);
    if (np == NULL) return 0;//分配结点没有成功，则直接返回
    np->next = hashtable[hashvalue];
    hashtable[hashvalue] = np;
    return 1;
}

/* A pretty useless but good debugging function,
which simply displays the hashtable in (key.value) pairs
*/
void displayHashTable()
{//显示hash表元素（不包括空）
    node *np;
    unsigned int hashvalue;
    for(int i=0; i < HASHSIZE; ++i)
    {
        if(hashtable[i] != NULL)
        {
            np = hashtable[i];
            printf("\nhashvalue: %d (", i);
            for(; np != NULL; np=np->next)
                printf(" (%s.%s) ", np->name, np->desc);
            printf(")\n");
        }
    }
}

void cleanUp()
{//清空hash表
    node *np,*tmp;
    for(int i=0;i < HASHSIZE; ++i)
    {
        if(hashtable[i] != NULL)
        {
            np = hashtable[i];
            while(np != NULL)
            {
                tmp = np->next;
                free(np->name);
                free(np->desc);
                free(np);
                np = tmp;
            }
        }
    }
}

int main()
{
    char* names[]={"First Name","Last Name","address","phone","k101","k110"};
    char* descs[]={"Kobe","Bryant","USA","26300788","Value1","Value2"};
    
    for(int i=0; i < 6; ++i)
        insert(names[i], descs[i]);
    printf("we should see %s\n",search("k110"));
    insert("phone","9433120451");//这里计算的hash是冲突的，为了测试冲突情况下的插入
     printf("we have %s and %s\n",search("k101"),search("phone"));
    displayHashTable();
    cleanUp();
    return 0;
}

除留余数法：http://www.nowamagic.net/academy/detail/3008040

除留余数法介绍

除留余数法此方法为最常用的构造散列函数方法。对于散列表长为m的散列函数公式为：

f( key ) = key mod p ( p ≤ m )

mod是取模（求余数）的意思。事实上，这方法不仅可以对关键字直接取模，也可在折叠、平方取中后再取模。

一个例子

很显然，本方法的关键就在于选择合适的p, p如果选得不好，就可能会容易产生同义词。下面我们来举个例子看看：

有一个关键字，它有12个记录，现在我们要针对它设计一个散列表。如果采用除留余数法，那么可以先尝试将散列函数设计为f(key) = key mod 12的方法。比如29 mod 12 = 5，所以它存储在下标为5的位置。

不过这也是存在冲突的可能的，因为12 = 2×6 = 3×4。如果关键字中有像18(3×6)、30(5×6)、42(7×6)等数字，它们的余数都为6，这就和78所对应的下标位置冲突了。

甚至极端一些，对于下图的关键字，如果我们让p为12的话，就可能出现下面的情况，所有的关键字都得到了0这个地址数，这未免也太糟糕了点。

但是我们如果不选用p=12来做除留余数法，而选用p=ll，则结果如下：

这个时候就只有12和144有冲突，相对来说，就要好很多了。

如何合理选取p值

使用除留余数法的一个经验是，若散列表表长为m，通常p为小于或等于表长（最好接近m)的最小质数或不包含小于20质因子的合数。

这句话怎么理解呢？要不这样吧，我再举个例子：某散列表的长度为100，散列函数H(k)=k%P,则P通常情况下最好选择哪个呢？A、91 B、93 C、97 D、99
实践证明，当P取小于哈希表长的最大质数时，产生的哈希函数较好。我选97，因为它是离长度值最近的最大质数。

致一

关注

13
点赞
踩
41

收藏

觉得还不错? 一键收藏
0
评论
hash表拉链法解决冲突

散列表(Hash table)也称为哈希表。是字典的一种抽象。比如说你要查一个字，通过这个字的拼音首字母，找到这个字的页码，然后翻到那页找就行了。这种方法直接把查找时间复杂度降到了常数。但是要牺牲一定的计算索引的时间。计算索引的那个函数称为哈希函数 ( 散列函数``)。如果两个不同的 key`算出了同一个索引，此时就要用到一定的方法来解决哈希冲突。哈希函数哈希函数
复制链接

扫一扫