哈希函数的构造及注意事项

最新推荐文章于 2023-10-17 16:21:45 发布

zhouzhenhe2008

最新推荐文章于 2023-10-17 16:21:45 发布

阅读量1.9k

点赞数

分类专栏： C/C++ 面试题文章标签：哈希函数

本文链接：https://blog.csdn.net/zhouzhenhe2008/article/details/76512362

版权

C/C++ 同时被 2 个专栏收录

97 篇文章 9 订阅

订阅专栏

面试题

23 篇文章 1 订阅

订阅专栏

哈希表的主要作用其实就是处理数据的映射，把数据转换为更方便，更容易处理的数据。

而映射就是就是一个函数，称之为哈希函数。

通常构造哈希函数需要考虑以下要点：

（1）哈希函数的耗时时间

（2）关键字的长度

（3）哈希表的大小

（4）关键字的分布情况

（5）记录的查找频率

下面只介绍构造哈希函数最常用的方法也是很简单的方法：

除留余数法

取关键字被某个不大于哈希表表长m的数p除后所得余数为哈希地址。

H(key)=key MOD p (p<=m)

所谓的哈希表表长，就是你计划定义的数组元素个数的大小。

冲突的处理方法

设置的哈希函数一般可以减少冲突，但避免不了。所以，需要有针对冲突的处理方式。

冲突处理：令数组元素个数为m ，则当H(key) 已经存储了元素的时候，依次探查 (H(key)+i) modp , i=1,2,3……，直到找到空的存储单元为止（或者从头到尾扫描一圈仍未发现空单元，这就是哈希表已经满了，发生了错误。当然这是可以通过扩大数组范围避免的）。

其实意思就是如果H(key)值已经被其他元素占用了，试下H(key)+1,2,3...

另外一个就是求模时的p尽量使用素数，不选素数的话可能会造成hash出值的范围和原定义的不一致哈希函数。

举个例子

好的HASH函数需要把原始数据均匀地分布到HASH数组里

原始数据不大会是真正的随机的，可能有某些规律，

比如大部分是偶数，这时候如果HASH数组容量是偶数，容易使原始数据HASH后不会均匀分布。
比如 2 4 6 8 10 12这6个数，如果对6 取余得到2 4 0 2 4 0 只会得到3种HASH值，冲突会很多
如果对 7 取余得到 2 4 6 1 3 5 得到6种HASH值，没有冲突

同样地，如果数据都是3的倍数，而HASH数组容量是3的倍数，HASH后也容易有冲突

#ifndef _HASH_H_
#define _HASH_H_

#include <stdio.h>
#include <string.h>
#include <unistd.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <ctype.h>

#define HASH_GENE 4
#define OVER_ (65535*65535)

int hash(char *key_str, unsigned long MAX_SS_NUM);

#endif //_HASH_H_

hash.c

#include "hash.h"

int hash(char *key_str, unsigned long MAX_SS_NUM)
{
register unsigned int h;
register unsigned char *p;

for(h=0, p = (unsigned char *)key_str; *p ; p++)
{
h = 31 * h + *p;
}

return (h % MAX_SS_NUM);
}

zhouzhenhe2008

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
哈希函数的构造及注意事项

哈希表的主要作用其实就是处理数据的映射，把数据转换为更方便，更容易处理的数据。而映射就是就是一个函数，称之为哈希函数。通常构造哈希函数需要考虑以下要点：（1）哈希函数的耗时时间（2）关键字的长度（3）哈希表的大小（4）关键字的分布情况（5）记录的查找频率下面只介绍构造哈希函数最常用的方法也是很简单的方法：除留余数法取关键字被某个不大于哈希表表长m
复制链接

扫一扫