1.列表生成式实现笛卡尔积
names = ['张三', '李四', '王麻子']
sexs = ['男', '女', '男']
new_list = [(name, sex) for name in names for sex in sexs]
输出 new_list 是 3*3=9 个元组
附:
生成器表达式只需将中括号换成小括号即可
生成器表达式逐个产生元素而不是一次性产出一个列表(内存)
这样有利于避免额外内存占用
2.具名元组
from collections import namedtuple
city = namedtuple('city', 'name username country age')
tokyo = city('Tokyo', '小胡', '日本', '22')
第一行参数是类名以及它的属性名称
第二行是属性赋值,字段信息获取和对象一样
附: 切片赋值必须为可迭代对象,即是可变型数据类型
缺点: 无法指定各参数的默认值
3.排序区别
a = ['a', 'b', 'dd', 'c']
a.sort() 对a进行排序,不会生成新列表,原存储位置不变
sorted(a) 会生成新列表,占据新内存
整形与字符串的排序
l = [0, '1', 2, '3', 11, 25, '25']
print(sorted(l, key=int))
print(sorted(l, key=str))
[0, '1', 2, '3', 11, 25, '25']
[0, '1', 11, 2, 25, '25', '3']
4.双向队列
此类是一个线程安全、可以快速从两端添加或者删除元素的数据类型
from collections import deque
d = deque(range(10), maxlen=10) 设置最大长度为10,一旦设置则不能修改
超出则删除;不设置也可以
d.rotate(2) 设置旋转2个数字,参数为正数则将右边移到左边,反之相反
print(d)
d.appendleft(-1) 从头部添加一个元素 -1 ,若超出限制则从右边删除
print(d)
d.append(2) 尾部添加,超出则从左边删除;extend方法同理
print(d)
结果
deque([8, 9, 0, 1, 2, 3, 4, 5, 6, 7], maxlen=10)
deque([-1, 8, 9, 0, 1, 2, 3, 4, 5, 6], maxlen=10)
deque([8, 9, 0, 1, 2, 3, 4, 5, 6, 2], maxlen=10)
Queue类也是一种队列类,但当其队列满时会被锁住,直到有空才能使用
5.字典
d = {}
d.setdefault(key, value)
顾名思义,设置默认值。如果原有则无意义,否则添加
d.get() 原有则返回值,否则返回None
实现队列或栈
from collections import OrderedDict
d = OrderedDict([('1', 1), ('2', 2), ('3', 3)])
d.popitem(last=False)
实现先进先出(队列), 当没有 last 参数时,先进后出(栈)
此类型添加键时会保持顺序
6.简便统计字典中各元素次数
from collections import Counter
c = Counter('aaabbbvd')
lis = c.most_common()
元素个数元组展示--> [('a',3), ('b',2), ('c',1), ('d',1)]
result = {key: value for key, value in lis}
元素个数字典存储--字典生成式-->{'a': 3, 'b': 3, 'v': 1, 'd': 1}
7.集合
可变数据类型中仅集合支持 交并补集以及子父集 操作
不可变类型=可散列的
discard() 方法,有则移除,无则不操作
remove() 方法,有则移除, 无则报错
8.散列表
即哈希表
散列表是一个稀疏数组(总有空白), 集合和字典的实现都依赖它
它在被创建时有一个阈值,当空白小于阈值时会进行扩容,原有的
散列表会被复制到一个更大的空间里
一个可散列对象支持 hash()函数,若a==b,则hash(a)==hash(b)
字典和集合都是以牺牲空间来换取时间,内存消耗大但查询速度快
9.编码与解码
编码--encode()用于机器间存储和传输,将字符串变为字节序列
解码--decode()用于人类识别, 将字节序列转为文本字符串
str.encode('utf8')
bytes.decode('utf8')
编码的等价交换
a = 'ss'
a = a.encode('utf8')
a = bytes('ss').encode('utf8')
a = bytes('ss', encoding='utf8')
输出为 b'ss'
实现字符串转化为 bytes类型
使用 errors参数可以将无法解码的部分用 ? 表示
a.decode('utf8', errors='replace')
声明编码格式
# coding: utf-8
10.小问题
with open('xxx.txt', 'wb') as f:
f.write()
会调用系统默认的编码方式编码写入
with open('xxx.txt', 'r') as f:
f.read()
同理,也可以自己设置编码格式 encoding
正则表达式匹配字节序列
re.compile(rb'\d+')
re.compile(rb'\w+')