python3中字符集的介绍和使用

字符: 就是各种文字和符号的总称,包括国家文字、标点符号、图形符号、数字等
字符集: 就是多个字符的集合,比如熟知的ASCII字符集,很类似字典,一个键对应一个值

列出常见的几个字符集

  • ASCII字符集:占用1个字节,只支持英文和一些符号
  • GB2312字符集:占用2个字节,包含汉字6763个和非汉字图形字符682个
  • GBK字符集(常用):占用2个字节,包含21886个汉字和图形符号
  • GB18030字符集:多字节编码方式,共收录汉字70244个
  • Unicode字符集:万国码,占用2个字节,一般程序内部使用
  • UTF-8字符集(常用):是Unicode字符集的实现方式之一,UTF-8是它的一种变长的编码方式,可以是1,2,3个字节,中文占用3个字节,英文占用1个字节

下面用代码讲解

a = "中国"
print(a)  
b = a.encode()   #默认不写就是使用了UTF-8的编码方式
print(b)         #打印出 b'\xe4\xb8\xad\xe5\x9b\xbd'  ,可以看到“中国”两个字每个字占用3个字节,对应了UTF-8字符集
 
 **注意:如上\xe4表示一个十六进制字符,对应于4个二进制的字符,这里就有24个二进制字符,除以8位后,就是3个字节**
 
c = b.decode()    #解码默认不写也是使用了UTF-8字符集
print(c)         #打印出“中国”

d = a.encode("GBK")  #这里使用了GBK的编码方式
print(d)            #打印出 b'\xd6\xd0\xb9\xfa'  可以看出一个中文占用了2个字节

e = d.decode("GBK")  #这里的解码就要对应使用GBK
print(e)             #打印出“中国”

最后就是编码和解码要使用相同的字符集,否则就会产生乱码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值