ASCII码、unicode码和utf-8及python中的编码

       ASCII码是一开始主要用于表示英文字符,其对英文字符与二进制位之间的关系,做了统一规定。这被称为 ASCII 码,一直沿用至今。ASCII 码一共规定了128个字符的编码,比如空格SPACE是32(二进制00100000),大写的字母A是65(01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的一位统一规定为0。

       然而,英文用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,汉字就多达10万左右。一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。比如,简体中文常见的编码方式是 GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示 256 x 256 = 65536 个符号。

       不同的文字使用不同的编码时不时就会造成乱码,如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。 Unicode应运而生,这是一种所有符号的编码。Unicode使用两个字节进行编码,这是一个很大的集合。具体的符号对应表,可以查询unicode.org,或者专门的汉字对应表。Unicode同时兼容了ASCII码,ASCII码在前一个字节补0即可形成unicode编码。

         由于unicode编码占存储空间过多,于是变长编码utf-8应运而生。它使用1个字节编码英文,3个字节编码中文,4~6个字节编码其他生僻用语。这样,在文本大多数内容为英文时能够极大节约存储空间。但是这种变长编码是不利于在内存中读写的,因此有了如下转换:

                               
       值得一提的是,在python3中,默认使用unicode编码,所以python3中的中文可以直接转换为utf-8编码,例如

s = "中文"
s.encode('utf-8')

是没有问题的,但是在python2中,中文仍旧是使用gb2312编码,而encode时python2中首先会默认使用unicode来decode,这样上述代码会报错:

s = "中文"
s.encode('utf-8')        #等价于s.decode('unicode').encode('uf-8'),报错
s.decode('gb2312').encode('utf-8')    #不报错

或者
s = u"中文"    #表示使用unicode编码
s.encode('utf-8')  #不报错

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值