哈希表相关

最新推荐文章于 2022-07-31 15:47:30 发布

西恩于曼巴

最新推荐文章于 2022-07-31 15:47:30 发布

阅读量312

点赞数

本文链接：https://blog.csdn.net/Geomancerest/article/details/80769355

版权

哈希函数

散列函数(Hash Function)又名哈希函数，是计算机科学中一个重要的课题。什么是散列函数呢？其实，这个概念并没有一个严格的定义。一般说来，散列函数满足以下的条件：

1、对输入值运算，得到一个固定长度的摘要(Hash value)；

2、不同的输入值可能对应同样的输出值；

不过，仅仅满足上面这两条的函数，作为散列函数，还有不足的地方。我们还希望散列函数满足下面几点：

1、散列函数的输出值尽量接近均匀分布；

2、x的微小变化可以使f(x)发生非常大的变化，即所谓“雪崩效应”；

上面两点用数学语言表示，就是：

1、输出值y的分布函数F(y)=y/m, m为散列函数的最大值。或记为y~U[0, m]

2、|df(x)/dx| >> 1；

哈希冲突的处理

在Hash表的建立时，会发生Hash值冲突的情况。实际上，如果记录Hash值的范围多于Hash表的条数，根据抽屉原理，一定会发生冲突。对于冲突的处理，我们一般有这几种方法：

对Hash表中每个Hash值建立一个冲突表，即将冲突的几个记录以表的形式存储在其中；
改变规则重新计算一次Hash值；
建立一个公用的区域存放冲突的表项；

在工程上，考虑到实现算法的复杂度，方法1用得是最多的。对于方法1，又有两种不同的实现，一种方法是对每个Hash值，建立一个Hash桶(Bucket)，桶的容量是固定的，也就是只能处理固定次数的冲突，如1048576个Hash桶，每个桶中有4个表项(Entry)，总计4M个表项。另一种方法是，不限制Hash桶的容量，以链表形式将冲突的记录挂接在一个Hash桶中。

这两种实现各有什么利弊呢？首先，让我们看看第一种实现：

在这种情况下，由于Hash桶容量的限制，所以，有可能发生Hash表填不满的情况，也就是，虽然Hash表里面还有空位，但是新建的表项由于冲突过多，而不能装入Hash表中。不过，这样的实现也有其好处，就是查表的最大开销是可以确定的，因为最多处理的冲突数是确定的，所以算法的时间复杂度为O(1)+O(m)，其中m为Hash桶容量。

而另一种实现，由于Hash桶的容量是无限的，因此，只要没有超出Hash表的最大容量，就能够容纳新建的表项。但是，一旦发生了Hash冲突严重的情况，就会造成Hash桶的链表过长，大大降低查找效率。在最坏的情况下，时间复杂度退化为O(n)，其中n为Hash表的总容量。当然，这种情况的概率小之又小，几乎是可以忽略的。

Hash表的一个应用例子，是在网关(Gateway)中。以网络防火墙为例，它是根据源IP，目的IP，源端口，目的端口，协议号构成的五元组来标识一条网络数据流的，并且根据五元组来建立会话表项(session entry)。为了查找便捷，一般都使用Hash表来实现这个会话表，以提高转发的效率。事实上，对于大量表项的查找，逐项查找是不允许的，一般都使用Hash表来实现。

C++ STL ：unordered_map/unordered_set了解一下^_^，详细介绍参考：http://www.nowamagic.net/academy/detail/3008050

西恩于曼巴

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
哈希表相关

哈希函数散列函数(Hash Function)又名哈希函数，是计算机科学中一个重要的课题。什么是散列函数呢？其实，这个概念并没有一个严格的定义。一般说来，散列函数满足以下的条件：1、对输入值运算，得到一个固定长度的摘要(Hash value)；2、不同的输入值可能对应同样的输出值；不过，仅仅满足上面这两条的函数，作为散列函数，还有不足的地方。我们还希望散列函数满足下面几点： ...
复制链接

扫一扫