彻底搞清unicode和utf8编码-CSDN博客

本文链接：https://blog.csdn.net/sususuchenchen/article/details/88844781

字符串编码

编码发展历程

计算机只能处理数字，文本转换为数字才能处理。计算机中8个bit作一个字节，所以一个字节能表示的最大数字就是255.
计算机是美国人发明的。所以一个字节可以表示他们所有的字符，所以ASCII(一个字节)编码就成为了美国人的标准编码。
但是ASCII处理中文明显是不够的。中文不止255个汉字，所以中国制定了GB2312编码，用两个字节便是一个汉字。GB2312还把ASCII包含进去了。同理，日文韩文也是如此。但是标准越来越多时，当出现多种语言混合显示的情况时就一定会出现乱码。
于是unicode出现了，它将所有语言统一到了一套编码里。
乱码问题虽然解决了，但是如果内容全是英文，unicode编码比ASCII需要多一倍的存储空间，同时如果传输的话，也需要多一倍的传输
所以出现了可变长的编码“utf-8”，把英文变长一个字节，汉字三个字节。特别生僻的编程4-6个字节，如果传输大量的英文，utf-8的作用就很明显了。
ASCII和unicode编码对比

| | ASCII编码 | unicode编码 | 二进制 |
| ———— | ———————– | —————————- | —————— |
| 字母A | 65 | | 0100 0001 |
| 汉字’中‘ | 已经超出ASCII编码的范围 | 20013 | 01001110 00101101 |
| A使用unicode | | 使用unicode编码只需要前面补0 | 00000000 0100 0001 |

编码转换

python3中默认编码为utf-8

>>> x = "我用Python"
>>> x.encode("utf-8")
b'\xe6\x88\x91\xe7\x94\xa8Python'
>>>

>>> import sys
>>> sys.getdefaultencoding()
'utf-8'
>>>

python2中默认编码为ASCII

>>> s = "我用Python"
>>> s.encode("utf8")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)
>>>

>>> import sys
>>> sys.getdefaultencoding()
'ascii'
>>>

编码问题是Python2与Python3之间最大的区别，理解好编码问题对真正掌握Python有着至关重要的作用。