数据结构与算法学习（07）查找（4）散列、哈希、字典—

本文链接：https://blog.csdn.net/cjh_cr7/article/details/139213132

查找（4）—— 散列（Hash）字典

介绍

本文为查找第四部分，主要是整理了本人上课时讲的内容，并给出了代码实现

散列函数的构造方法

直接地址法

$H (k) = ak + b$

数字分析法

基本思想：当关键字值的位数大于散列地址码的位数时，对关键值各位数字进行分析，从中取出与散列地址位数相同的位

在这里插入图片描述

适用范围：适用于当所有关键字值都已知的情况下。但在许多情况中，这是不可能实现的，所以这时候便不合适

平方取中法

在这里插入图片描述

适用范围：当关键字值中的每一位取值都不够分散，或者相对比较分散的位数小于散列地址所需要的位数的情况。

叠加法

基本思想：将关键字值分割成位数相同的几个部分（最后一个部分的位数如不够，不足位左边可以空缺），然后把这几个部分的叠加和（舍去进位）作为散列地址。

适用范围：在位数很多且位值分布比较均匀时可以采用

移位叠加法

在这里插入图片描述

舍去进位，179作为k的散列地址

折叠叠加法

在这里插入图片描述

基数转换法

在这里插入图片描述

除留余数法

$k\ mod\ p$

其中，若m为地址范围大小（或称表长），则p可为小于等于m的素数。一般为最接近m的素数

随机数法

$H (k) = r an d o m (k)$

一些好的哈希函数**

针对字符串好的哈希函数

unsigned int hash(char *str)
{
    unsigned int h = 0;

    while (*str != '\0')
        h = (h << 5) + *str++;
    return h % TableSize;
}

unsigned int BKDRHash(const char *str)
{
    unsigned int seed = 131; // 31 131 1313 13131 131313 etc..
    unsigned int hash = 0;

    while (*str)
    {
        hash = hash * seed + (*str++);
    }

    return (hash & 0x7FFFFFFF); // 处理负数情况
}

冲突的处理方法

开放地址法

$D_i = (H(k) + d_i) \ mod\ m$

线性探测

$d_i = 1,2,3,4,5,6,$

二次探测

$d_i =1^2,-1^2,2^2,-2^2,$

伪随机

di 为伪随机序列

特点

负载因子——衡量散列表的饱满程度
$\alpha = \frac{n}{m_{max}}$
n 代表散列表中实际存入的元素数，m 代表散列表中基本区的最大容量

$\alpha$ 越大，散列表越满，一般来说小于1。

“线性探测法”容易产生元素“聚集”的问题。
“二次探测法”可以较好地避免元素“聚集”的问题，但不能探测到表中的所有元素（至少可以探测到表中的一半元素）。
只能对表项进行逻辑删除（如做删除标记），而不能进行物理删除。使得表面上看起来很满的散列表实际上存在许多未用位置。

再散列法

$D_i = H_i(k)$

$D_i$ 为散列地址， $H_i(k)$ 是不同的散列函数

链接地址法

在这里插入图片描述

代码实现

struct Node
{
    int data;
    struct Node *next;
} *Hashtable[tableSize];

// 查找并创建哈希表
struct Node *lookUp(int key, int create)
{
    unsigned int h = hash(key);
    struct Node *tmp = Hashtable[h];

    while (tmp != NULL)
    {
        if (tmp->data == key)
        {
            return tmp;
        }
        tmp = tmp->next;
    }
    if (create)
    {
        tmp = (struct Node *)malloc(sizeof(struct Node));
        tmp->data = key;
        tmp->next = Hashtable[h];
        Hashtable[h] = tmp;
    }
    return tmp;
}