python3中字符集的介绍和使用

最新推荐文章于 2024-06-27 10:00:00 发布

怪人陈先生

最新推荐文章于 2024-06-27 10:00:00 发布

阅读量1k

点赞数

分类专栏： python 文章标签：字符集

本文链接：https://blog.csdn.net/qq_42690811/article/details/90949862

版权

python 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

字符: 就是各种文字和符号的总称，包括国家文字、标点符号、图形符号、数字等
字符集: 就是多个字符的集合，比如熟知的ASCII字符集，很类似字典，一个键对应一个值

列出常见的几个字符集

ASCII字符集：占用1个字节，只支持英文和一些符号
GB2312字符集：占用2个字节，包含汉字6763个和非汉字图形字符682个
GBK字符集(常用)：占用2个字节，包含21886个汉字和图形符号
GB18030字符集：多字节编码方式，共收录汉字70244个
Unicode字符集：万国码，占用2个字节，一般程序内部使用
UTF-8字符集(常用)：是Unicode字符集的实现方式之一，UTF-8是它的一种变长的编码方式，可以是1，2，3个字节，中文占用3个字节，英文占用1个字节

下面用代码讲解

a = "中国"
print(a)  
b = a.encode()   #默认不写就是使用了UTF-8的编码方式
print(b)         #打印出 b'\xe4\xb8\xad\xe5\x9b\xbd'  ，可以看到“中国”两个字每个字占用3个字节，对应了UTF-8字符集
 
 **注意：如上\xe4表示一个十六进制字符，对应于4个二进制的字符，这里就有24个二进制字符，除以8位后，就是3个字节**
 
c = b.decode()    #解码默认不写也是使用了UTF-8字符集
print(c)         #打印出“中国”

d = a.encode("GBK")  #这里使用了GBK的编码方式
print(d)            #打印出 b'\xd6\xd0\xb9\xfa'  可以看出一个中文占用了2个字节

e = d.decode("GBK")  #这里的解码就要对应使用GBK
print(e)             #打印出“中国”

最后就是编码和解码要使用相同的字符集，否则就会产生乱码