python编码问题

最新推荐文章于 2024-05-22 20:26:52 发布

m0_46442609

最新推荐文章于 2024-05-22 20:26:52 发布

阅读量267

点赞数

原文链接：http://c.biancheng.net/view/4305.html

版权

    最早的字符串编码是ASCII编码，它仅仅对10个数字、26个大小写英文字母以及一些特殊字符进行了编码，ASCII最多表示256个字符，每个字符只需要占用1个字节。
    随着信息技术的发展，各国的文字都需要进行编码，于是相继出现了GBK、GB2312、UTF-8编码等，其中GBK和GB2312是我国制定的中文编码标准，规定英文字符占一个字节，中文字符占2个字节；而UTF-8是国际通用的编码格式，它包含了全世界所有国家需要用到的字符，其规定英文字符占1个字节，中文字符占3个字节。

Python 3.x默认采用UTF-8编码格式，有效地解决了中文编码问题。
在Python中，有2种常用的字符串类型，分别是str和bytes类型，其中str用来表示Unicode字符，bytes用来表示二进制数据。str类型和bytes类型之间就需要使用encode()和decode()方法进行转换。

Python encode()方法

encode()方法为字符串类型（str）提供的方法，用于将str类型转化为bytes类型，这个过程也称为编码。

str.encode(encoding="编码")

>>> str1 = "C语言中文网"
>>> str1.encode()
b'C\xe8\xaf\xad\xe8\xa8\x80\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91'
>>> str1 = "C语言中文网"
>>> str1.encode('GBK')
b'C\xd3\xef\xd1\xd4\xd6\xd0\xce\xc4\xcd\xf8'

Python decode()方法

和 encode() 方法正好相反，decode() 方法用于将 bytes 类型的二进制数据转换为 str 类型，这个过程也称为“解码”。

bytes.decode(encoding="编码")

>>> str = "C语言中文网"
>>> bytes=str.encode()
>>> bytes.decode()
'C语言中文网'

**注意，如果编码时采用的不是默认的 UTF-8 编码，则解码时要选择和编码时一样的格式，否则会抛出异常，例如：** 

>>> str = "C语言中文网"
>>> bytes = str.encode("GBK")
>>> bytes.decode()  #默认使用 UTF-8 编码，会抛出以下异常
Traceback (most recent call last):
  File "<pyshell#10>", line 1, in <module>
    bytes.decode()
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd3 in position 1: invalid continuation byte

>>> bytes.decode("GBK")
'C语言中文网'