哈希表全解

最新推荐文章于 2024-04-22 21:31:29 发布

会飞的猪宝宝啊

最新推荐文章于 2024-04-22 21:31:29 发布

阅读量256

点赞数 1

分类专栏： C++

本文链接：https://blog.csdn.net/swty3356667/article/details/84147183

版权

C++ 专栏收录该内容

28 篇文章 1 订阅

订阅专栏

哈希表定义

哈希表（Hash table），是根据关键码值(Key - value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。

HashTable(key,value)就是把key通过一个固定的算法即哈希函数（散列函数）转换成一个整型数字，然后就将数字对数组的长度取余，把这个结果值作为数组的下标，然后将value存在以该数字为下标的数组中。而用哈希表查询时，可以用哈希函数把key转化数组下标，并且直接定位到该空间获取value，进行数据定位。

哈希表的特点：

数组的特点：寻址容易，插入和删除困难（需要移动数据）

链表的特点：寻址困难（要遍历），插入和删除容易

哈希表的特点：哈希表有不同的实现方法，其中一种最常用的拉链法（链表的数组），它结合了两者的特性，寻址容易，插入和删除也容易。

拉链法：左侧明显是一个数组，数组的每一个成员都包括一个指针，指向一个链表的投头，这个链表也可以是空，也有可能有元素。我们根据元素的一些特征把元素分配到不同的链表中去，也是根据这些特征，找到正确的链表，再从链表中找出这个元素。

哈希表的应用：

1、主要用于信息安全领域中加密算法，它能把一些不同长度的信息转化成杂乱的128位的编码，即哈希值。Hash就是找到一种数据内容和数据存放地址之间的映射关系。

2、用于高效率查找，之前用的是二分法查找，现在有了哈希表，当我们知道了key值以后，就可以直接通过哈希算法计算这个元素在数组中的位置，而不需要一个一个的比对查找。

3、哈希表在海量数据处理中有广泛的应用。

散列法：

元素特征转变为数组下标的方法就是散列法。散列法当然不止一种，下面列出三种比较常用的：
1，除法散列法最直观的一种，上图使用的就是这种散列法，公式：   index = value % 16 学过汇编的都知道，求模数其实是通过一个除法运算得到的，所以叫“除法散列法”。
2，平方散列法求index是非常频繁的操作，而乘法的运算要比除法来得省时（对现在的CPU来说，估计我们感觉不出来），所以我们考虑把除法换成乘法和一个位移操作。公式：       index = (value * value) >> 28   （右移，除以2^28。记法：左移变大，是乘。右移变小，是除。）如果数值分配比较均匀的话这种方法能得到不错的结果，但我上面画的那个图的各个元素的值算出来的index都是0——非常失败。也许你还有个问题，value如果很大，value * value不会溢出吗？答案是会的，但我们这个乘法不关心溢出，因为我们根本不是为了获取相乘结果，而是为了获取index。
3，斐波那契（Fibonacci）散列法
平方散列法的缺点是显而易见的，所以我们能不能找出一个理想的乘数，而不是拿value本身当作乘数呢？答案是肯定的。
1，对于16位整数而言，这个乘数是40503 2，对于32位整数而言，这个乘数是2654435769 3，对于64位整数而言，这个乘数是11400714819323198485
    这几个“理想乘数”是如何得出来的呢？这跟一个法则有关，叫黄金分割法则，而描述黄金分割法则的最经典表达式无疑就是著名的斐波那契数列，即如此形式的序列：0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233,377, 610，
987, 1597, 2584, 4181, 6765, 10946，…。另外，斐波那契数列的值和太阳系八大行星的轨道半径的比例出奇吻合。
    对我们常见的32位整数而言，公式：             index = (value * 2654435769) >> 28
    如果用这种斐波那契散列法的话，那上面的图就变成这样了：

适用范围快速查找，删除的基本数据结构，通常需要总数据量可以放入内存。
基本原理及要点 hash函数选择，针对字符串，整数，排列，具体相应的hash方法。碰撞处理，一种是open hashing，也称为拉链法；另一种就是closed hashing，也称开地址法，opened addressing。

哈希表的优缺点：

优点：不论哈希表中有多少数据，查找、插入、删除（有时包括删除）只需要接近常量的时间即0(1）的时间级。实际上，这只需要几条机器指令。哈希表运算得非常快，在计算机程序中，如果需要在一秒种内查找上千条记录通常使用哈希表（例如拼写检查器)哈希表的速度明显比树快，树的操作通常需要O(N)的时间级。哈希表不仅速度快，编程实现也相对容易。
如果不需要有序遍历数据，并且可以提前预测数据量的大小。那么哈希表在速度和易用性方面是无与伦比的。

缺点：

（1）它是基于数组的，数组创建后难于扩展，某些哈希表被基本填满时，性能下降得非常严重，所以程序员必须要清楚表中将要存储多少数据（或者准备好定期地把数据转移到更大的哈希表中，这是个费时的过程）。

（2）一个关键字可能对应多个散列地址；需要查找一个范围时，效果不好。

散列冲突：不同的关键字经过散列函数的计算得到了相同的散列地址。

好的散列函数=计算简单+分布均匀（计算得到的散列地址分布均匀）

散列冲突的解决方案：

1、缓冲区法：建立一个缓冲区，把凡是拼音重复的人放到缓冲区中。当我通过名字查找人时，发现找的不对，就在缓冲区里找。

2、开放地址法：

（1）线性探测法：

（2）二次探测法：

问题实例（海量数据处理）我们知道hash 表在海量数据处理中有着广泛的应用，下面，请看另一道百度面试题：题目：海量日志数据，提取出某日访问百度次数最多的那个IP。方案：IP的数目还是有限的，最多2^32个，所以可以考虑使用hash将ip直接存入内存，然后进行统计。

会飞的猪宝宝啊

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
哈希表全解

哈希表定义哈希表（Hash table），是根据关键码值(Key - value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。HashTable(key,value)就是把key通过一个固定的算法即哈希函数（散列函数）转换成一个整型数字，然后就将数字对数组的长度取余，把这个结果值作为...
复制链接

扫一扫