4.21 深入底层了解Python字典和集合,一眼看穿他们的本质!

字典和集合是进行过性能高度优化的数据结构,特别是对于查找、添加和删除操作。本节将结合实例介绍它们在具体场景下的性能表现,以及与列表等其他数据结构的对比。

例如,有一个存储产品信息(产品 ID、名称和价格)的列表,现在的需求是,借助某件产品的ID找出其价格。则实现代码如下:

def find_product_price(products, product_id):
  for id, price in products:
    if id == product_id: 
      return price
    return Noneproducts = [    (111, 100),    (222, 30),    (333, 150)]

products = [    (111, 100),    (222, 30),    (333, 150)]
print('The price of product 222 is {}'.format(find_product_price(products, 222)))

运行结果为:

The price of product 222 is 30

在上面程序的基础上,如果列表有 n 个元素,因为查找的过程需要遍历列表,那么最坏情况下的时间复杂度就为 O(n)。即使先对列表进行排序,再使用二分查找算法,也需要 O(logn) 的时间复杂度,更何况列表的排序还需要 O(nlogn) 的时间。

但如果用字典来存储这些数据,那么查找就会非常便捷高效,只需 O(1) 的时间复杂度就可以完成,因为可以直接通过键的哈希值,找到其对应的值,而不需要对字典做遍历操作,实现代码如下:

products = {  111: 100,  222: 30,  333: 150}
print('The price of product 222 is {}'.format(products[222]))

运行结果为:

The price of product 222 is 30

有些读者可能对时间复杂度并没有直观的认识,没关系,再给大家列举一个实例。下面的代码中,初始化了含有 100,000 个元素的产品,并分别计算出了使用列表和集合来统计产品价格数量的运行时间:

#统计时间需要用到 time 模块中的函数,了解即可
import time
def find_unique_price_using_list(products):
  unique_price_list = []
  for _, price in products:
    # A  
    if price not in unique_price_list:
      #B
      unique_price_list.append(price) 
      return len(unique_price_list)
    id = [x for x in range(0, 100000)]
    price = [x for x in range(200000, 300000)]
    products = list(zip(id, price))
    # 计算列表版本的时间
    start_using_list = time.perf_counter()
    find_unique_price_using_list(products)
    end_using_list = time.perf_counter()
		print("time elapse using list: {}".format(end_using_list - start_using_list))
    #使用集合完成同样的工作
def find_unique_price_using_set(products):
  unique_price_set = set()
  for _, price in products:
    unique_price_set.add(price)
    return len(unique_price_set)
  # 计算集合版本的时间
  start_using_set = time.perf_counter()
  find_unique_price_using_set(products)
  end_using_set = time.perf_counter()
  print("time elapse using set: {}".format(end_using_set - start_using_set))

运行结果为:

time elapse using list: 68.78650900000001
time elapse using set: 0.010747099999989018

可以看到,仅仅十万的数据量,两者的速度差异就如此之大。而往往企业的后台数据都有上亿乃至十亿数量级,因此如果使用了不合适的数据结构,很容易造成服务器的崩溃,不但影响用户体验,并且会给公司带来巨大的财产损失。

那么,字典和集合为什么能如此高效,特别是查找、插入和删除操作呢?

字典和集合的工作原理

字典和集合能如此高效,和它们内部的数据结构密不可分。不同于其他数据结构,字典和集合的内部结构都是一张哈希表:

  • 对于字典而言,这张表存储了哈希值(hash)、键和值这 3 个元素。
  • 而对集合来说,哈希表内只存储单一的元素。

对于之前版本的 Python 来说,它的哈希表结构如下所示:

  | 哈希值 (hash)  键 (key)  值 (value)
. |           ...
0 |    hash0      key0    value0
. |           ...
1 |    hash1      key1    value1
. |           ...
2 |    hash2      key2    value2
. |           ...

这种结构的弊端是,随着哈希表的扩张,它会变得越来越稀疏。比如,有这样一个字典:

{‘name’: ‘mike’, ‘dob’: ‘1999-01-01’, ‘gender’: ‘male’}

那么它会存储为类似下面的形式:

entries = [
['--', '--', '--']
[-230273521, 'dob', '1999-01-01'],
['--', '--', '--'],
['--', '--', '--'],
[1231236123, 'name', 'mike'],
['--', '--', '--'],
[9371539127, 'gender', 'male']
]

显然,这样非常浪费存储空间。为了提高存储空间的利用率,现在的哈希表除了字典本身的结构,会把索引和哈希值、键、值单独分开,也就是采用如下这种结构:

Indices
----------------------------------------------------
None | index | None | None | index | None | index ...
----------------------------------------------------

Entries
--------------------
hash0   key0  value0
---------------------
hash1   key1  value1
---------------------
hash2   key2  value2
---------------------
        ...
---------------------

在此基础上,上面的字典在新哈希表结构下的存储形式为:

indices = [None, 1, None, None, 0, None, 2]
entries = [
[1231236123, 'name', 'mike'],
[-230273521, 'dob', '1999-01-01'],
[9371539127, 'gender', 'male']
]

通过对比可以发现,空间利用率得到很大的提高。

清楚了具体的设计结构,接下来再分析一下如何使用哈希表完成对数据的插入、查找和删除操作。

哈希表插入数据

当向字典中插入数据时,Python 会首先根据键(key)计算出对应的哈希值(通过 hash(key) 函数),而向集合中插入数据时,Python会根据该元素本身计算对应的哈希值(通过 hash(valuse) 函数)。

例如:

dic = {"name":1}
print(hash("name"))
setDemo = {1}
print(hash(1))

运行结果为:

8230115042008314683
1

得到哈希值(例如为 hash)之后,再结合字典或集合要存储数据的个数(例如 n),就可以得到该元素应该插入到哈希表中的位置(比如,可以用 hash%n 的方式)。

如果哈希表中此位置是空的,那么此元素就可以直接插入其中;反之,如果此位置已被其他元素占用,那么 Python 会比较这两个元素的哈希值和键是否相等:

  • 如果相等,则表明该元素已经存在,再比较他们的值,不相等就进行更新;
  • 如果不相等,这种情况称为哈希冲突(即两个元素的键不同,但求得的哈希值相同)。这种情况下,Python 会使用开放定址法、再哈希法等继续寻找哈希表中空余的位置,直到找到位置。

哈希表查找数据

在哈希表中查找数据,和插入操作类似,Python 会根据哈希值,找到该元素应该存储到哈希表中的位置,然后和该位置的元素比较其哈希值和键(集合直接比较元素值):

  • 如果相等,则证明找到;
  • 反之,则证明当初存储该元素时,遇到了哈希冲突,需要继续使用当初解决哈希冲突的方法进行查找,直到找到该元素或者找到空位为止。

这里的找到空位,表示哈希表中没有存储目标元素。

哈希表删除元素

对于删除操作,Python 会暂时对这个位置的元素赋于一个特殊的值,等到重新调整哈希表的大小时,再将其删除。

需要注意的是,哈希冲突的发生往往会降低字典和集合操作的速度。因此,为了保证其高效性,字典和集合内的哈希表,通常会保证其至少留有 1/3 的剩余空间。随着元素的不停插入,当剩余空间小于 1/3 时,Python 会重新获取更大的内存空间,扩充哈希表,与此同时,表内所有的元素位置都会被重新排放。

虽然哈希冲突和哈希表大小的调整,都会导致速度减缓,但是这种情况发生的次数极少。所以,平均情况下,仍能保证插入、查找和删除的时间复杂度为 O(1)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
【为什么学PythonPython 是当今非常热门的语言之一,2020年的 TIOBE 编程语言排行榜中 ,Python名列第一,并且其流行度依然处在上升势头。 在2015年的时候,在网上还经常看到学Python还是学R的讨论,那时候老齐就选择了Python,并且开始着手出版《跟老齐学Python》。时至今日,已经无需争论。Python给我们带来的,不仅仅是项目上的收益,我们更可以从它“开放、简洁”哲学观念中得到技术发展路线的启示。 借此机会,老齐联合CSDN推出了本课程,希望能影响更多的人走进Python,踏入编程的大门。 【课程设计】 本课程共包含三大模块: 一、基础知识篇 内置对象和基本的运算、语句,是Python语言的基础。本课程在讲解这部分知识的时候,不是简单地将各种知识做简单的堆砌,而是在兼顾内容的全面性的同时,更重视向学习者讲授掌握有关知识的方法,比如引导学习者如何排查错误、如何查看和理解文档等。   二、面向对象篇 “面向对象(OOP)”是目前企业开发主流的开发方式,本课程从一开始就渗透这种思想,并且在“函数”和“类”的学习中强化面向对象开发方式的学习——这是本课程与一般课程的重要区别,一般的课程只在“类”这里才提到“对象”,会导致学习者茫然失措,并生畏惧,乃至于放弃学习。本课程则是从开始以“润物细无声”的方式,渗透对象概念,等学习到本部分的时候,OOP对学习者而言有一种“水到渠成”的感觉。   三、工具实战篇 在项目实战中,除了前述的知识之外,还会用到很多其他工具,至于那些工具如何安装?怎么自己做工具?有那些典型工具?都是这部分的内容。具体来说,就是要在这部分介绍Python标准库的应用以及第三方包的安装,还有如何开发和发布自己的工具包。此外,很多学习Python的同学,未来要么从事数据科学、要么从事Web开发,不论哪个方向,都离不开对数据库的操作,本部分还会从实战的角度,介绍如何用Python语言操作常用数据库。
### 回答1: ChipGenius v4.21.0701是一款免费的USB设备信息分析工具。它可以检测和识别连接到计算机上的各种USB设备的型号、容量、厂商信息等详细信息。使用该工具,用户可以在USB存储设备、USB闪存盘、USB硬盘、USB磁盘、MP3/MP4播放器、SD卡等外部存储设备上获取详细信息,从而更好地管理数据。此外,该工具还提供了对设备的扫描、测试及解决方案等功能,帮助用户更好地了解和解决USB设备的问题。这个工具功能强大,界面简洁易懂,受到用户们的青睐,是非常实用的一款USB设备信息分析工具。 ### 回答2: ChipGenius v4.21.0701是一款免费的USB设备识别软件,在PC上运行,能够检测到USB存储设备的具体型号和制造商。其功能强大,可以帮助用户快速找出USB存储设备的芯片厂家和生产日期,以便更好地进行系统兼容性测试和驱动升级。 ChipGenius v4.21.0701还支持自动查找和下载USB存储设备的驱动程序,方便用户在设备使用时出现问题时进行修复。此外,该软件还提供了详细的硬件信息查看功能,包括固件版本、芯片扇区、总容量等,对于需要深入了解存储设备的工作原理和性能的用户非常有用。 值得注意的是,ChipGenius v4.21.0701只能识别已连接到计算机上的USB存储设备,无法对其他类型的设备进行识别。此外,在使用该软件时,建议用户关闭防火墙和杀毒软件,以免误判或阻止USB设备的正常识别。总体而言,ChipGenius v4.21.0701是一款实用性较高的USB设备识别工具,可以帮助用户更好地管理和维护其USB存储设备。 ### 回答3: ChipGenius v4.21.0701是一款免费的USB设备信息查询工具,它可以快速准确地识别USB存储设备芯片厂家、型号、容量以及序列号等信息。它可以帮助用户检测USB盘的真伪和容量是否被篡改,也可以辅助用户解决USB设备无法识别或者无法使用的问题。 使用ChipGenius v4.21.0701非常简单,只需要插入USB设备并运行程序,它就可以自动识别设备并列出详细的硬件信息。这些信息包括厂商ID、产品ID、芯片控制器厂家及型号、闪存型号、容量等。同时,它还可以自动联网查询芯片厂家的网站,从而获取更详细的芯片信息和驱动程序。 除了查询硬件信息外,ChipGenius v4.21.0701还可以检测USB设备是否有坏道和读写速度是否正常。它可以帮助用户检测USB设备的质量,并提供有用的参考信息。 总之,ChipGenius v4.21.0701是一款非常实用的USB设备信息查询工具,可以帮助用户快速识别USB设备的型号和制造商,提高用户的USB设备管理效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

愿与你共信仰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值