【流畅的python》4.1 节学习笔记 --- 编码与解码】

OnlyMars

已于 2024-08-29 09:56:19 修改

阅读量239

点赞数 1

分类专栏：流畅的python 文章标签： python 编码与解码

于 2024-08-29 09:52:48 首次发布

本文链接：https://blog.csdn.net/OnlyMars/article/details/141667940

版权

流畅的python 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

前言

本文为《流畅的python》的4.1节的学习笔记。

代码展示

编码与解码


s = 'café'
print(len(s))
>>>
4

b = s.encode('utf8')
print(b)
>>>
b'caf\xc3\xa9'

print(len(b))
>>>
5

a = b.decode('utf8')
print(a)
>>>
café

说明：s为字符串，是用于人类识别的内容。编码(encode函数)的作用是把人类可识别的字符转换为机器可识别的字节序列。解码(decode函数)与编码是相反的过程，其作用是把机器可识别的字节序列转换为人类可识别的字符。从运行结果可以看出，编码内容的长度与解码内容的长度也是不一样的。

编码解码的错误处理


city = 'São Paulo'
city_u8 =city.encode('utf8')
print(city_u8)
>>>
b'S\xc3\xa3o Paulo'

city_u16 = city.encode('utf16')
print(city_u16)
>>>
b'\xff\xfeS\x00\xe3\x00o\x00 \x00P\x00a\x00u\x00l\x00o\x00'

city_cp437 = city.encode('cp437')
print(city_cp437)
>>>
Traceback (most recent call last):
  line 12, in encode
    return codecs.charmap_encode(input,errors,encoding_map)
UnicodeEncodeError: 'charmap' codec can't encode character '\xe3' in position 1: character maps to <undefined>

city_cp437 = city.encode('cp437', errors= 'ignore')
print(city_cp437)
>>>
b'So Paulo'

city_cp437 = city.encode('cp437', errors= 'replace')
print(city_cp437)
>>>
b'S?o Paulo'

说明：utf8 utf16 cp437是解编码器的不同类型，在进行编码时，把文本转换成字节序列时，如果目标编码中没有定义某个字符，那就会抛出UnicodeEncodeError 异常，如上第三个用例。除非把errors参数传给编码方法或函数，对错误进行特殊处理，使用’ignore’，当转换有异常时，将直接跳过此字符，导致信息的丢失，用户也不知道此情况。而使用’replace’，当转换有异常时，将文本使用’?'代替。可见’replace’的错误处理方法是比’ignore’更好的。


octets = b'Montr\xe9al'
ots_cp1252 = octets.decode('cp1252')
print(ots_cp1252)
>>>
Montréal

ots_iso = octets.decode('iso8859_7')
print(ots_iso)
>>>
Montrιal

ots_u8 = octets.decode('utf8', errors= 'replace')
print(ots_u8)
>>>
Montr�al