全栈工程师开发手册 (作者:栾鹏)
python数据挖掘系列教程
基本顺序存储结构——列表与元组
Python中的基本顺序存储结构是列表与元组,在操作的复杂度上和数组完全相同,其中列表是可变数据类型,元组是不可变数据类型。这里先介绍一下两种数据结构共有的方法:
语法 | 描述 |
---|---|
x in s | 返回布尔值,x在s中 |
x not in s | 返回布尔值,x不在s中为True |
s + t | s和t的拼接,可以+= |
s * n or n * s | n为int类型,返回s重复n次的结果。可以*=,同上 |
s[i] | 返回索引为i的元素 |
s[i:j(:k)] | 切片,返回子数组,从s[i]~s[i-1],k为步长,默认为1. |
len(s) | 现有元素个数 |
min(s) | 最小元素 |
max(s) | 最大元素 |
s.index(x[,i[,j]]) | 在s[i] ~ s[j-1]中,第一个大小为x的元素的索引,i,j默认0,-1 |
s.count(x) | 统计x的数目 |
这些都不涉及对数组内元素的更改,因此是列表和元组都可以使用的。注意元组只能使用以上的方法。
接下来介绍可变有序容器的方法,注意各种方法都有利用切片赋值的实现!
语法 | 描述 |
---|---|
s[i] = x | 赋值操作 |
s[i:j(:k)] = t | 按照切片规则选择元素进行赋值,注意如果t为[]可以用作删除,如果i==j可以用作插入 |
del s[i:j(:k)] | 按照切片规则进行删除 |
s.append(x) | 在尾部插入,等价于s.insert(I,len(s)),复杂度O(1). |
s.clear() | 清空所有元素 (等价于del s[:]) |
s.copy() | 创建一份s的浅拷贝 (等价于 s[:]) |
s.extend(t) or s += t | 在后面插入一组,相当于+=; |
s.insert(i, x) | 在i处插入x (等价于s[i:i] = [x]) |
s.pop([i]) | 默认删除尾部元素,否则删除i处的元素 |
s.remove(x) | 删除第一个等于x的元素 |
s.reverse() | 列表反向 |
此外,列表还独有s.sort(key=None, reverse=None),其中key是一个函数名,也就是比较函数,reverse为布尔值,True的话则会列表反向。
Sort单独列出来是因为如果自己从可变有序容器里面派生的话并没有这个方法。
基本哈希存储结构——字典
字典是基于哈希表的一种映射结构,注意本文中介绍的Python的数据结构并没有任何一种使用了红黑树的搜索结构。python3.6以后字典是有序字典,在python3.6以前有序字典是OrderedDict。
语法 | 描述 |
---|---|
len(d) | 返回字典元素个数 |
d[key] | 返回key对应的value |
d[key] = value | 为字典元素赋值,如果没有则增加元素 |
del d[key] | 删除字典元素 |
key in d/ key not in d | 查看key是否在d中 |
iter(d) | 返回一个迭代器,具有__next__()方法 |
clear() | 清空 |
copy() | 浅复制 |
fromkeys(seq[, value]) | 以seq作为键,value作为值建立字典,默认value为None |
get(key[, default]) | 安全的get方法,如果不存在返回default,如果不指定default则报错 |
items() | 列出一个键值对的view |
keys() | 列出key的view,通常用于遍历 |
values() | Return a new view of the dictionary’s values. |
pop(key[, default]) | Key在d中则删除,和del[key]一样,default如果被指定,那么当不存在key的时候会返回default而不会报错 |
popitem() | 弹出一个键值对,为key的哈希序列中的第一个 |
setdefault(key[, default]) | 安全的添加操作,如果存在就返回value不更改值,如果不存在添加一个key:default的表项,default默认为0 |
update([other]) | 更改操作,other可以是键值对的列表或元组(二级的),也可以是字典,用other中的键值对添加到或替换原有键值对 |
键值相等的字典——集合set与frozenset
在Python set是基本数据类型的一种集合类型,它有可变集合(set())和不可变集合(frozenset)两种。
set无序排序且不重复,是可变的。既然是可变的,所以它不存在哈希值。基本功能包括关系测试和消除重复元素. 集合对象还支持union(联合), intersection(交集), difference(差集)和sysmmetric difference(对称差集)等数学运算.
frozenset是冻结的集合,它是不可变的,存在哈希值,好处是它可以作为字典的key,也可以作为其它集合的元素。缺点是一旦创建便不能更改,没有add,remove方法。
首先介绍两种集合共有的方法:
语法 | 描述 |
---|---|
len(s) | 集合元素个数 |
x in/not in s | 是否在集合中 |
isdisjoint(other) | 和other的交集为空 |
set <= other | 包含于 |
set < other | 真包含于 |
set >= other | 包含 |
set > other | 真包含 |
set | other | … | 并 |
set & other & … | 交 |
set - other - … | 差 |
set ^ other | 对称差(并-交) |
copy() | 浅拷贝 |
而set独有的方法是,一个是诸如&=之类的运算符,还有:
语法 | 描述 |
---|---|
add(elem) | 增加元素,是把要传入的元素做为一个整个添加到集合中 |
update(list) | 增加元素,是把要传入的元素拆分,做为个体传入到集合中。 |
remove(elem) | 删除元素,不存在则报错 |
discard(elem) | 删除元素,不存在不报错 |
pop() | 删除哈希表第一个元素,空集报错 |
clear() | 清空 |
创建集合set、集合set添加、集合删除、交集、并集、差集的操作都是非常实用的方法。
创建集合set
a = set(['y', 'python', 'b', 'o'])
print(a)
a = set('boy')
print(a)
输出为
{'y', 'o', 'python', 'b'}
{'y', 'o', 'b'}
双向链表deque
就是简单意义上的双向链表(双向队列),注意这里不再支持切片操作了,随机访问的操作保留,可以通过随机访问通过del实现删除,但是没有切片无法用于替换,截取等操作,无法sort:
语法 | 描述 |
---|---|
append(x) | 右侧插入 |
appendleft(x) | 左侧插入 |
clear() | 清空 |
copy() | 浅复制 |
count(x) | 计数 |
extend(iterable) | 按组右侧连接 |
extendleft(iterable) | 按组左侧连接 |
index(x[, start[, stop]]) | 搜索等于x的第一个位置 |
insert(i, x) | 在i处插入x |
pop() | 右侧删除 |
popleft() | 左侧删除 |
remove(value) | 搜索第一个元素并删除 |
reverse() | 队列反向 |
rotate(n) | 前n个队列的尾部元素移动到首部 |
maxlen | 有界情况下返回最大长度 |