ASCII码、unicode码和utf-8及python中的编码

最新推荐文章于 2022-12-02 18:14:28 发布

小伟db

最新推荐文章于 2022-12-02 18:14:28 发布

阅读量630

点赞数

本文链接：https://blog.csdn.net/qq_35985044/article/details/104183434

版权

ASCII码是一开始主要用于表示英文字符，其对英文字符与二进制位之间的关系，做了统一规定。这被称为 ASCII 码，一直沿用至今。ASCII 码一共规定了128个字符的编码，比如空格SPACE是32（二进制00100000），大写的字母A是65（01000001）。这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的一位统一规定为0。

然而，英文用128个符号编码就够了，但是用来表示其他语言，128个符号是不够的。比如，汉字就多达10万左右。一个字节只能表示256种符号，肯定是不够的，就必须使用多个字节表达一个符号。比如，简体中文常见的编码方式是 GB2312，使用两个字节表示一个汉字，所以理论上最多可以表示 256 x 256 = 65536 个符号。

不同的文字使用不同的编码时不时就会造成乱码，如果有一种编码，将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。 Unicode应运而生，这是一种所有符号的编码。Unicode使用两个字节进行编码，这是一个很大的集合。具体的符号对应表，可以查询unicode.org，或者专门的汉字对应表。Unicode同时兼容了ASCII码，ASCII码在前一个字节补0即可形成unicode编码。

由于unicode编码占存储空间过多，于是变长编码utf-8应运而生。它使用1个字节编码英文，3个字节编码中文，4~6个字节编码其他生僻用语。这样，在文本大多数内容为英文时能够极大节约存储空间。但是这种变长编码是不利于在内存中读写的，因此有了如下转换：

值得一提的是，在python3中，默认使用unicode编码，所以python3中的中文可以直接转换为utf-8编码，例如

s = "中文"
s.encode('utf-8')

是没有问题的，但是在python2中，中文仍旧是使用gb2312编码，而encode时python2中首先会默认使用unicode来decode，这样上述代码会报错：

s = "中文"
s.encode('utf-8')        #等价于s.decode('unicode').encode('uf-8')，报错
s.decode('gb2312').encode('utf-8')    #不报错

或者
s = u"中文"    #表示使用unicode编码
s.encode('utf-8')  #不报错

小伟db

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
ASCII码、unicode码和utf-8及python中的编码

ASCII码是一开始主要用于表示英文字符，其对英文字符与二进制位之间的关系，做了统一规定。这被称为 ASCII 码，一直沿用至今。ASCII 码一共规定了128个字符的编码，比如空格SPACE是32（二进制00100000），大写的字母A是65（01000001）。这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的一位统一规定为0。 ...
复制链接

扫一扫