字符: 就是各种文字和符号的总称,包括国家文字、标点符号、图形符号、数字等
字符集: 就是多个字符的集合,比如熟知的ASCII字符集,很类似字典,一个键对应一个值
列出常见的几个字符集
- ASCII字符集:占用1个字节,只支持英文和一些符号
- GB2312字符集:占用2个字节,包含汉字6763个和非汉字图形字符682个
- GBK字符集(常用):占用2个字节,包含21886个汉字和图形符号
- GB18030字符集:多字节编码方式,共收录汉字70244个
- Unicode字符集:万国码,占用2个字节,一般程序内部使用
- UTF-8字符集(常用):是Unicode字符集的实现方式之一,UTF-8是它的一种变长的编码方式,可以是1,2,3个字节,中文占用3个字节,英文占用1个字节
下面用代码讲解
a = "中国"
print(a)
b = a.encode() #默认不写就是使用了UTF-8的编码方式
print(b) #打印出 b'\xe4\xb8\xad\xe5\x9b\xbd' ,可以看到“中国”两个字每个字占用3个字节,对应了UTF-8字符集
**注意:如上\xe4表示一个十六进制字符,对应于4个二进制的字符,这里就有24个二进制字符,除以8位后,就是3个字节**
c = b.decode() #解码默认不写也是使用了UTF-8字符集
print(c) #打印出“中国”
d = a.encode("GBK") #这里使用了GBK的编码方式
print(d) #打印出 b'\xd6\xd0\xb9\xfa' 可以看出一个中文占用了2个字节
e = d.decode("GBK") #这里的解码就要对应使用GBK
print(e) #打印出“中国”
最后就是编码和解码要使用相同的字符集,否则就会产生乱码