小白如何成为python数据分析师
第9天---->集合
集合,一起学习吧!
集合定义
Python程序中的集合跟数学上的集合是完全一致的,是一种容器型的数据类型。通常我们把“把一定范围的、确定的、可以区别的事物当作一个整体来看待”,这个整体我们称为集合 (set),集合中的各个事物通常称为集合的元素。使用"{}"字面量语法来定义集合。
集合三大特性:
-
无序性:一个集合中,每个元素的地位都是相同的,元素之间是无序的。
-
互异性:一个集合中,任何两个元素都认为是不相同的,即每个元素只能出现一次。(可以使用这个特性去重,但是去重后可能顺序会被打乱)
-
确定性:给定一个集合,任给一个元素,该元素或者属于或者不属于该集合,二者必居其一,不允许有模棱两可的情况出现。
# 空集合 set1 = set() # 互异性(没有重复元素) set2 = {1, 2, 3, 3, 3, 2} print(set2) # {1, 2, 3} print(len(set2)) # 3 # 无序性(不能通过下标进行运算和获取元素) set3 = set([1, 2, 3, 3, 2, 1]) print(set3[1]) # 报错 # 确定性(元素或者属于或者不属于该集合) set5 = {3, 5, 6, 9, 10, 12, 15, 18} print(3 in set5) # True print(20 in set5) # False
因为无序性,所以集合就没有下标,这样在Python中集合肯定就不能够支持索引运算。因为互异性集合中不能有重复元素,这一点也是集合区别于列表的关键,所以Python中的集合类型具有去重特性。
Python中的集合底层使用了哈希存储的方式,这就决定了集合的成员运算在性能上要优于列表的成员运算,也决定了集合的元素必须是可以能够计算出哈希码的数据类型(
hashable
类型)。这样才能存储。通常不可变类型都是
hashable
类型,如整数、浮点、字符串、元组等,而可变类型都不是hashable
类型,因为可变类型无法确定唯一的ID值,所以也就不能放到集合中。如(列表、集合、字典等可变容器类型都不可以放在集合中)。
创建集合
1.字面量语法:在Python中,创建集合可以使用{}
字面量语法,{}
中需要至少有一个元素,因为没有元素的{}
并不是空集合而是一个空字典,要创建空集合可以使用set()
.
2.构造器语法:使用内置函数set
来创建一个集合,准确的说set
并不是一个函数,而是创建集合对象的构造器.
3.将列表转换成集合:例如:set('hello')
会得到一个包含了4个字符的集合(重复的“L”会被去掉).
4.生成式语法:使用循环遍历生成。
# 创建集合的字面量语法(重复元素不会出现在集合中)
set1 = {1, 2, 3, 3, 3, 2}
print(set1) # {1, 2, 3}
print(len(set1)) # 3
# 创建集合的构造器语法(后面会讲到什么是构造器)
set2 = set('hello')
print(set2) # {'h', 'l', 'o', 'e'}
# 将列表转换成集合(可以去掉列表中的重复元素)
set3 = set([1, 2, 3, 3, 2, 1])
print(set3) # {1, 2, 3}
# 创建集合的生成式语法(将列表生成式的[]换成{})
set4 = {num for num in range(1, 20) if num % 3 == 0 or num % 5 == 0}
print(set4) # {3, 5, 6, 9, 10, 12, 15, 18}
# 集合元素的循环遍历
for elem in set4:
print(elem)
注意:在创建集合是,集合中的元素必须是
hashable
类型。所谓hashable
类型指的是能够计算出哈希码的数据类型.
集合运算
Python为集合类型提供了非常丰富的运算符,主要包括:成员运算、交集运算、并集运算、差集运算、比较运算(相等性、子集、超集)等。
成员运算交集运算
set1 = {1, 5, 6, 8}
set2 = {2, 6, 9, 10}
# 成员运算---->确定性(在或者不在)
# 集合的成员运算远远高于列表的成员运算。
print(2 in set1)
print(5 not in set1)
交集运算(&)
set1 = {1, 5, 6, 8}
set2 = {2, 6, 9, 10}
# 交集
print(set1 & set2)
print(set1.intersection(set2))
并集运算(|)
# 并集
set1 = {1, 5, 6, 8}
set2 = {2, 6, 9, 10}
print(set1 | set2)
print(set1.union(set2))
差集运算
set1 = {1, 5, 6, 8}
set2 = {2, 6, 9, 10}
# 差集
print(set1 - set2)
print(set2 - set1)
print(set1.difference(set2))
# 对称差(并集-差集)
print(set1 ^ set2)
print((set1 | set2) - (set1 & set2))
print(set1.symmetric_difference(set2))
集合的交集、并集、差集运算还可以跟赋值运算一起构成复合运算,如下所示。
set1 = {1, 3, 5, 7}
set2 = {2, 4, 6}
# 将set1和set2求并集再赋值给set1
# 也可以通过set1.update(set2)来实现
set1 |= set2
print(set1) # {1, 2, 3, 4, 5, 6, 7}
set3 = {3, 6, 9}
# 将set1和set3求交集再赋值给set1
# 也可以通过set1.intersection_update(set3)来实现
set1 &= set3
print(set1) # {3, 6}
比较运算
两个集合可以用==
和!=
进行相等性判断,如果两个集合中的元素完全相同,那么==
比较的结果就是True
,否则就是False
。如果集合A的任意一个元素都是集合B的元素,那么集合A称为集合B的子集,即对于∀a∈A,均有a∈B,则A⊆B。A是B的子集,反过来也可以称B是A的超集。如果A是B的子集且A不等于B,那么A就是B的真子集。(相等性、子集、超集)
set1 = {1, 3, 5}
set2 = {1, 2, 3, 4, 5}
set3 = set2
# <运算符表示真子集,<=运算符表示子集
print(set1 < set2, set1 <= set2) # True True
print(set2 < set3, set2 <= set3) # False True
# 通过issubset方法也能进行子集判断
print(set1.issubset(set2)) # True
# 反过来可以用issuperset或>运算符进行超集判断
print(set2.issuperset(set1)) # True
print(set2 > set1) # True
集合方法
集合添加或删除元素。
# 创建一个空集合
set1 = set()
# 通过add方法添加元素
set1.add(33)
set1.add(55)
set1.update({1, 10, 100, 1000})
print(set1) # {33, 1, 100, 55, 1000, 10}
# 通过discard方法删除指定元素
set1.discard(100)
set1.discard(99)
print(set1) # {1, 10, 33, 55, 1000}
# 通过remove方法删除指定元素,建议先做成员运算再删除
# 否则元素如果不在集合中就会引发KeyError异常
if 10 in set1:
set1.remove(10)
print(set1) # {33, 1, 55, 1000}
# pop方法可以从集合中随机删除一个元素并返回该元素
print(set1.pop())
# clear方法可以清空整个集合
set1.clear()
print(set1) # set()
判断两个集合有没有相同的元素可以使用isdisjoint
方法,没有相同元素返回True
,否则返回False
,
set1 = {'Java', 'Python', 'Go', 'Kotlin'}
set2 = {'Kotlin', 'Swift', 'Java', 'Objective-C', 'Dart'}
set3 = {'HTML', 'CSS', 'JavaScript'}
print(set1.isdisjoint(set2)) # False
print(set1.isdisjoint(set3)) # True
不可变集合
frozenset
由于是不可变类型,能够计算出哈希码,因此它可以作为set
中的元素。除了不能添加和删除元素,frozenset
在其他方面跟set
基本是一样的。集合(set
)跟不可变集合(frozenset
)的区别就如同列表(list
)跟元组(tuple
)的区别,
set1 = frozenset({1, 3, 5, 7})
set2 = frozenset(range(1, 6))
print(set1 & set2) # frozenset({1, 3, 5})
print(set1 | set2) # frozenset({1, 2, 3, 4, 5, 7})
print(set1 - set2) # frozenset({7})
print(set1 < set2) # False
集合是一种容器,元素必须是
hashable
类型,与列表不同的地方在于集合中的元素没有序、不能用索引运算、不能重复。