关于散列的一些学习笔记

最新推荐文章于 2022-01-23 11:34:24 发布

june_francis

最新推荐文章于 2022-01-23 11:34:24 发布

阅读量364

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/june_young_fan/article/details/83212142

版权

python 专栏收录该内容

78 篇文章 11 订阅

订阅专栏

散列表

散列函数：传入一个数据，返回一个数字。

即：将输入映射到数字。

散列函数必须满足一些要求：
1、一致性：同样的输入映射的是相同的数字。
2、差异性：将不同的输入映射到不同的数字。

应用：散列表（hash table）。

别称：散列映射、映射、字典和关联数组。

任一优秀的语言都提供了散列表实现。Python提供的散列表实现为字典。

散列表的优势：

1、散列函数总是将同样的输入映射到相同的索引。
2、散列函数将不同的输入映射到不同的索引。
3、散列函数知道数组有多大，只返回有效的索引。

现实生活中的案列：

散列表被用于大海捞针式的查找：
DNS解析使用的就是散列表提供的功能。
你在访问类似http://adit.io这样的网站时，计算机必须将adit.io转换为IP地址。
这就是将网址映射到IP地址。

检查重复

使用散列表来检查是否重复，速度非常快，而不必使用简单查找去搜索整个列表。

用作缓存

目的：让web服务器少做工作，提高网站的访问速度。
原理：记住每次访问网站的数据，下一次再次访问时直接使用上一次访问得到的数据，而不用再去请求服务器。

缓存是一种常用的加速方式，所有大型网站都使用缓存，而缓存的数据则是存储在散列表中！

冲突

关于前面散列函数的叙述“散列函数总是将不同的键映射到数组的不同位置”实际上是不合适的。

实际上几乎不可能编写出这样的散列函数。

这种情况下冲突就产生了：我们会给两个键分配相同的位置，而先分配的键会被后分配的键覆盖。

例如：假设我有一个数组，它包含26个位置。而我使用的散列函数非常简单，它按字母表顺序分配数组的位置。

现在我要将苹果Apple的价格存储到散列表中，它将被分配到散列表的第一个位置上。
接下来我要将香蕉Banana的价格存储到散列表中，它将被分配到散列表的第二个位置上。
但是现在我要将鳄梨Avocados的价格存储到散列表中，它又将被分配到散列表的第一个位置。

这个时候你会说不好了，第一个位置我已经存储上苹果Apple的价格了，这个时候如果给鳄梨分配位置，那么我以后查询苹果的价格实际上得到的是鳄梨的价格。

如何解决冲突

1、最简单的办法如下：
如果两个键映射到了同一个位置，就在这个位置存储一个链表。
如下图：
88888

经验教训

1、散列函数很重要。理想的散列函数是将键均匀的映射到散列表的不同位置。
2、如果散列表存储的链表很长，散列表的速度将急剧下降。

性能

**在平均情况下，散列表执行各种操作的时间都为O(1)，即常量时间。**也就是说不管散列表有多大，所需的时间都相同。

在平均情况下，散列表的查找（获取给定索引处的值）速度与数组一样快，而插入和删除的速度与链表一样快，因此它兼具两者的优点！
如图：
在这里插入图片描述

但是在最糟情况下，散列表的各种操作的速度都很慢。因此，在使用散列表时，避开最糟情况至关重要。为此，需要避免冲突。而要避免冲突，需要具备以下条件：
1、较低的填装因子。
2、良好的散列函数。

填装因子

填装因子的计算：

       散列表包含的元素数/位置总数

填装因子用来度量散列表中有多少位置是空的。

最佳情况下每个元素都有自己的位置，然而如果没有足够的位置即填装因子大于1则意味着元素数量超过了数组的位置数。一旦填装因子开始增大，你就需要在散列表中添加位置，这被称为调整长度。

为此我们首先需要创建一个更长的新数组：通常将数组增长一倍。

接下来，我们使用散列函数将所有的元素都插入到这个新的散列表中。

**结论：**填装因子越低，发生冲突的可能性越小，散列表的性能越高。
**经验规则：**一旦填装因子大于0.7，就调整散列表的长度。
通常情况下，即便考虑到调整长度需要的时间，散列表操作所需的时间也为O(1)。

良好的散列函数

良好的散列函数能让数组中的值呈均匀分布；反之，糟糕的散列函数会让值扎堆，导致大量的冲突出现。

例如：SHA函数

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

june_francis CSDN认证博客专家 CSDN认证企业博客

码龄7年

66: 原创

5万+: 周排名

152万+: 总排名

29万+: 访问

: 等级

3432: 积分

87: 粉丝

294: 获赞

97: 评论

1348: 收藏

私信

关注

分类专栏

SQL 5篇
评分排序 1篇
Redis 1篇
环境配置问题 7篇
python库 24篇
linux 8篇
python 78篇
socket 2篇
网络编程 2篇

最新评论

Python中的源代码反编译成字节码及其解析
june_francis: 可能这个地方我解释的不够好，事实上dis.dis模块是先将源代码字符串编译成了code objects，然后再进行了反汇编，也就是从code objects到字节码指令的转换，更详细的过程可以参考官方文档中的解释：https://docs.python.org/3.6/library/dis.html?highlight=dis#module-dis
Python中的源代码反编译成字节码及其解析
sinat_35521718: “源代码”到“字节码”不能叫做“反编译”吧？一般是源代码到目标代码、机器代码转换的方向叫“编译”。“编译”过程中代码的可读性是逐渐降低的。从机器代码、目标代码到汇编代码、源代码这一方向的转换才叫“反编译”，“反编译”过程中代码的可读性是逐渐增强的
由于某种原因升级了centOS系统的glibc库导致了系统linux命令大部分不可使用！
zed327: 哥们你真是救命了我机器也差点挂了...真心顶一个
Python中的源代码反编译成字节码及其解析
M1r4n: Python中的源代码反编译成字节码及其解析值得学习，非常受益，期待june_young_fan的下一篇文章
聚类算法OPTICS的理解及实现
vtghsr: 比喻真的很好，看懂了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。