集合（set）和字典（dict）的区别及应用场合

cndes

已于 2024-09-28 07:27:02 修改

阅读量779

点赞数 6

分类专栏： Python 文章标签：数据结构 python

于 2024-09-28 07:18:43 首次发布

本文链接：https://blog.csdn.net/cndes/article/details/142606511

版权

Python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在 Python 中，集合（set）和字典（dict）有以下区别：

一、定义和语法

集合：使用花括号`{}`或者`set()`函数来创建，其中的元素是无序的、不重复的。例如：`s = {1, 2, 3}`。
字典：由键值对组成，同样使用花括号`{}`来创建，每个键值对之间用逗号分隔，键和值之间用冒号分隔。例如：`d = {'key1': 'value1', 'key2': 'value2'}`。

二、存储内容

集合：只存储元素本身，没有与之关联的其他值。
字典：存储键值对，通过键来快速查找对应的值。

快速查找。字典是基于哈希表实现的，这使得查找操作非常快速。平均情况下，查找一个键值对的时间复杂度为 O (1)，即与字典的大小基本无关。无论字典中有多少个键值对，查找特定键对应的值都能在很短的时间内完成。
插入和删除高效。插入和删除操作的平均时间复杂度也接近 O (1)。当向字典中添加新的键值对或删除已有的键值对时，哈希表能够快速调整内部结构以适应这些变化。这种高效性使得字典在需要频繁进行数据动态更新的场景下表现出色。
内存占用。由于哈希表需要额外的内存空间来存储哈希值和解决冲突，字典可能会占用相对较多的内存。尤其是当字典中的键值对数量较少但键的类型比较复杂时，内存开销可能会比较明显。

三、元素特性

集合元素：必须是可哈希的（即不可变类型，如整数、字符串、元组等），并且集合中的元素是唯一的。
字典键：也必须是可哈希的，且唯一；字典的值可以是任何类型，可以重复。

四、操作方法

集合：主要操作有添加元素（`add()`）、删除元素（`remove()`）、并集（`union()`）、交集（`intersection()`）等。
字典：可以通过键来添加、修改和获取对应的值，例如`d[key] = value`来添加或修改值，`value = d.get(key)`来获取值。还可以使用`keys()`、`values()`、`items()`等方法分别获取键、值和键值对的视图。

五、字典的应用场景

集合：用于去除重复元素、进行集合运算（如求交集、并集、差集等），或者判断元素是否存在于某个集合中。
字典：用于存储和快速查找关联数据，例如存储学生的学号和姓名对应关系、存储配置信息等。

（一）字典的性能特点

1. 快速查找
- 字典是基于哈希表实现的，这使得查找操作非常快速。平均情况下，查找一个键值对的时间复杂度为 O(1)，即与字典的大小基本无关。
- 无论字典中有多少个键值对，查找特定键对应的值都能在很短的时间内完成。

2. 插入和删除高效
- 插入和删除操作的平均时间复杂度也接近 O(1)。当向字典中添加新的键值对或删除已有的键值对时，哈希表能够快速调整内部结构以适应这些变化。
- 这种高效性使得字典在需要频繁进行数据动态更新的场景下表现出色。

3. 内存占用
- 由于哈希表需要额外的内存空间来存储哈希值和解决冲突，字典可能会占用相对较多的内存。尤其是当字典中的键值对数量较少但键的类型比较复杂时，内存开销可能会比较明显。

（二）字典的应用场景

1. 存储配置信息
- 在软件应用中，字典可以用来存储各种配置参数。例如，一个图形绘制软件可以使用字典存储用户的偏好设置，如颜色主题、线条粗细等。这样可以方便地通过键来获取相应的配置值，并且在需要修改配置时，直接通过键进行赋值即可。
- 代码示例：

     config = {'color_theme': 'dark', 'line_thickness': 2}
     print(config['color_theme'])  
     config['line_thickness'] = 3

2. 统计词频
- 在文本处理中，可以用字典来统计单词出现的频率。将单词作为键，出现的次数作为值，每次遇到一个单词时，如果它已经在字典中，则将对应的值加一；如果不在字典中，则将其添加到字典中并初始化为 1。
- 代码示例：

#统计给定文本中每个单词的出现频率
text = "this is a sample text this is another sample text"
#通过 text.split() 将输入的文本拆分成一个单词列表 words。
words = text.split()
frequency = {}
#遍历这个单词列表。如果当前单词已经在 frequency 字典中，就将其对应的值加 1
#如果当前单词不在字典中，就将其作为键添加到字典中，并将对应的值初始化为 1
for word in words:
   if word in frequency:
      frequency[word] += 1
   else:
      frequency[word] = 1
#打印出包含每个单词及其出现频率的字典。
print(frequency)

3. 对象属性表示
- 在面向对象编程中，可以用字典来模拟对象的属性。例如，在处理 JSON 数据时，可以将 JSON 对象转换为字典，通过键来访问各个属性的值。
- 代码示例：

     json_data = {'name': 'John', 'age': 30, 'city': 'New York'}
     print(json_data['name'])
     print(json_data['age'])

4. 缓存数据
- 字典可以作为缓存来存储已经计算过的结果，以避免重复计算。例如，在递归函数中，可以用字典来存储已经计算过的子问题的结果，当再次遇到相同的子问题时，直接从字典中获取结果，而不是重新计算。
- 代码示例：

     cache = {}
     def fibonacci(n):
         if n in cache:
             return cache[n]
         if n <= 1:
             result = n
         else:
             result = fibonacci(n - 1) + fibonacci(n - 2)
         cache[n] = result
         return result
     print(fibonacci(10))

六、集合的应用场景

（一）集合的性能特点

1. 快速成员检查
- 集合使用哈希表来存储元素，这使得检查一个元素是否在集合中非常快速，平均时间复杂度为 O(1)。
- 相比之下，在列表中检查元素是否存在通常需要遍历整个列表，时间复杂度为 O(n)，其中 n 是列表的长度。

2. 去重高效
- 当需要去除一个可迭代对象中的重复元素时，将其转换为集合再转换回原类型是一种非常高效的方法。
- 由于集合的元素唯一性，这个过程可以快速去除重复元素，而不需要进行复杂的比较操作。

3. 集合运算速度快
- 集合支持各种集合运算，如并集、交集、差集等。这些运算的时间复杂度通常也为 O(n)，其中 n 是参与运算的集合中较大集合的大小。
- 这使得在处理需要进行集合操作的问题时，集合可以提供高效的解决方案。

（二）集合的应用场景

1. 数据去重
- 当你有一个包含重复元素的列表或其他可迭代对象，并且需要得到一个不包含重复元素的版本时，可以使用集合进行去重。
- 例如，处理用户输入的一组数字，去除其中的重复值。
- 代码示例：

     original_list = [1, 2, 3, 2, 4, 1]
     unique_set = set(original_list)
     unique_list = list(unique_set)
     print(unique_list)  # [1, 2, 3, 4]

2. 成员关系判断
- 在需要频繁检查一个元素是否在一个集合中的场景下，集合非常适用。
- 比如，判断一个单词是否在给定的词汇表中。
- 代码示例：

     vocabulary = {'apple', 'banana', 'cherry'}
     word = 'banana'
     if word in vocabulary:
         print(f'{word} is in the vocabulary.')
     else:
         print(f'{word} is not in the vocabulary.')

3. 集合运算
- 在数学或计算机科学中，经常需要进行集合的并集、交集、差集等运算。
- 例如，在数据库查询中，可能需要找出同时满足两个条件的记录（交集），或者找出满足一个条件但不满足另一个条件的记录（差集）。
- 代码示例：

     set1 = {1, 2, 3, 4}
     set2 = {3, 4, 5, 6}
     union_set = set1.union(set2)
     intersection_set = set1.intersection(set2)
     difference_set = set1.difference(set2)
     print(f'Union: {union_set}')  # Union: {1, 2, 3, 4, 5, 6}
     print(f'Intersection: {intersection_set}')  # Intersection: {3, 4}
     print(f'Difference: {difference_set}')  # Difference: {1, 2}