编码
对于单个字符的编码,Python提供了ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符:
print(ord('A'))
print(ord('中'))
print(chr(66))
print(chr(25994))
如果知道字符的整数编码,还可以用十六进制这么写str:
print('\u4e2d\u6587\u658a')
Python对bytes类型的数据用带b前缀的单引号或双引号表示:
x = b'ABC'
要注意区分'ABC'和b'ABC',前者是str,后者虽然内容显示得和前者一样,但bytes的每个字符都只占用一个字节。
以Unicode表示的str通过encode()方法可以编码为指定的bytes,例如:
'ABC'.encode('ascii') # b'ABC'
'中文'.encode('utf-8') # b'\xe4\xb8\xad\xe6\x96\x87'
'中文'.encode('ascii') # 报错 因为中文编码的范围超过了ASCII编码的范围,Python会报错。
在bytes中,无法显示为ASCII字符的字节,用\x##显示。
反过来,如果我们从网络或磁盘上读取了字节流,那么读到的数据就是bytes。要把bytes变为str,就需要用decode()方法:
b'ABC'.decode('ascii') # 'ABC'
b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8') # '中文'
如果bytes中包含无法解码的字节,decode()方法会报错:
b'\xe4\xb8\xad\xff'.decode('utf-8')
Traceback (most recent call last):
...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 3: invalid start byte
如果bytes中只有一小部分无效的字节,可以传入errors='ignore'忽略错误的字节:
b'\xe4\xb8\xad\xff'.decode('utf-8', errors='ignore') # '中'
要计算str包含多少个字符,可以用len()函数:注意,单纯的中文是2长度,
len(b'ABC') # --3
len(b'\xe4\xb8\xad\xe6\x96\x87') # --6
print(len('中文'.encode('utf-8'))) # --6
print(len('中文')) # --2
格式化
print('%2d-%02d' % (3, 2))
print('%.3f' % 3.1415926)
# 3-02 %2d-%02d %2d和%02d:总共2位,
# 3.142 %.3f 小数点后面3位 %.f就是小数点后面没有
如果你不太确定应该用什么,%s永远起作用,它会把任何数据类型转换为字符串:
print('Age: %s. Gender: %s' % (25, True)) # Age: 25. Gender: True
有些时候,字符串里面的%是一个普通字符怎么办?这个时候就需要转义,用%%来表示一个%:
print('growth rate: %d %%' % 7) # 'growth rate: 7 %'
format()
另一种格式化字符串的方法是使用字符串的format()方法,它会用传入的参数依次替换字符串内的占位符{0}、{1}……,不过这种方式写起来比%要麻烦得多:
print('Hello, {0}, 成绩提升了 {1:.1f}%'.format('小明', 17.125) ) # 'Hello, 小明, 成绩提升了 17.1%'